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Содержание 


ie Ae 


Предисловие 


Задумайтесь над некоторыми ежедневно выполняемыми задачами. Вы 
сидите за столом в офисе, а в это время в комнату входит в новой шляпе 
ваш коллега — мужчина, выглядящий немного помолодевшим от того, 
что он сбрил бороду. Узнаете ли вы его? Несомненно, поскольку маски- 
ровка его целью не является. Он спрашивает вас: “Где книга, которую вы 
взяли у меня вчера?”. Вы помните о книге и интерпретируете вопрос как 
просьбу вернуть книгу. Вы переводите взгляд на свой стол и видите на 
ящике с дискетами стопку деловых бумаг, среди которых лежит и та 
книга, о которой идет речь. Вы протягиваете руку к книге, не задумыва- 
ясь о движениях, которые при этом должна выполнить ваша рука, извле- 
каете книгу из стопки с документами и отдаете ее своему коллеге. 

Эти ежедневно выполняемые задачи не требуют особых усилий, но 
каждая из них включает множество точно рассчитанных шагов. Мы 
должны были бы. с благоговением взирать на машину, работающую так 
же совершенно. Масштабы проблемы создания такой машины можно 
почувствовать, пытаясь программировать компьютерную систему для 
распознавания объектов по внешнему виду или другим признакам, 
в зависимости от контекста, когда приходится анализировать выполняе- 
мые действия, планировать движения робота и т.п. Пытаясь решить та- 
кие сложные задачи, многие ученые обратили внимание на машины, 
сходные по принципу работы с нашим собственным компьютером — че- 
ловеческим мозгом. Такие машины, использующие сети, состоящие из 
простых обрабатывающих элементов и легко адаптируемые к выполне- 
нию совершенно разных задач, называются нейронными сетями. Нейрон- 
ные сети не программируются, а обучаются TOMY, как правильно реали- 
зовать конкретную задачу. 

Нейронные сети оказались очень полезными при решении задач рас- 
познавания образов типа идентификации подводных объектов по сигна- 
лам гидролокатора или выявления фальшивых кредитных карточек. Чис- 
ло коммерческих приложений, использующих нейронные сети, постоян- 
но растет. Развивается и теоретическая база применения нейронных 
сетей в так называемых когнитивных задачах типа задач понимания 
обычного разговорного языка или задач управления движением автоном- 
ного транспортного средства. Такие задачи высокого уровня сложности 


долгие годы были предметом изучения дисциплины, областью интересов 
которой является искусственный интеллект. Теперь выделяют новую об- 
ласть искусственного интеллекта, в рамках которой предпринимаются 
попытки объединить идеи “традиционного искусственного интеллекта” 
и идеи теории нейронных сетей. Этот “новый искусственный интеллект” 
несет в себе большие потенциальные возможности для перехода компью- 
терных систем на следующий уровень развития. 

Данная книга предлагается в качестве первой книги по теории ней- 
ронных сетей для студентов старших курсов. Большинство книг по дан- 
ной тематике предполагает наличие у читателя хорошей математической 
подготовки. Полностью избежать использования математики при изуче- 
нии нейронных сетей невозможно, но в данной книге сделана попытка 
свести использование математического аппарата к минимуму — здесь, 
в основном, математика используется для сжатого представления алго- 
ритмов. Причем если используемые в книге математические выкладки 
для кого-то окажутся слишком сложными, читателю предоставлена воз- 
можность разобрать имеющиеся примеры, чтобы увидеть, как соответст- 
вующие обозначения используются в примерах. Главной целью книги 
является объяснение базовых концепций теории нейронных сетей, но 
в ней достаточно подробно рассматриваются и наиболее важные модели 
нейронных сетей, чтобы опытный программист мог реализовать такую 
сеть на том языке программирования, который окажется для него пред- 
почтительнее. 

В первых шести главах описываются наиболее важные модели ней- 
ронных сетей, что должно обеспечить понимание основ изучаемого 
предмета. Эти шесть глав занимают чуть более двух третей книги. У нас 
возникало искушение расширить использование математического аппа- 
рата и алгоритмов в этих главах, но это могло бы сузить круг читателей 
книги. Поэтому представление материала в некоторых частях книги было 
сознательно сжато, а объем разделов с примерами — увеличен. Напри- 
мер, алгоритм обратного распространения ошибок, о котором идет речь 
в главе 2, из представленных в книге алгоритмов является, вероятно, 
наиболее трудным для понимания, но вместе с тем этот алгоритм оказы- 
вается очень простым, если рассмотреть примеры его реализации на 
практике. По этой причине в дополнение к некоторым простым приме- 
рам в конце глав предлагаются более сложные. Читатель может также об- 
ратиться к приложению А, где в краткой форме излагаются необходимые 
сведения из области линейной алгебры, а также разъясняются некоторые 
обозначения, используемые в главе 2. В последних двух главах книги об- 
суждаются некоторые связи между нейронными сетями и понятиями из 


сферы традиционного искусственного интеллекта. Глава 7 содержит 
подготовительный материал для главы 8. Сегодня наблюдается рост ин- 
тереса к идее синтеза нейронных сетей и традиционного искусственного 
интеллекта. В отличие от первых шести глав, в главе 8 не ставится цель 
предложить читателю знания, которые могут сразу же найти непосредст- 
венное применение. Некоторые из предлагаемых там идей могут пока- 
заться довольно трудными для понимания и слишком абстрактными. Но 
соответствующий материал дает возможность представить решения, в ко- 
торых с помошью использования модульных сетевых систем решаются 
некоторые весьма сложные вычислительные проблемы. По целому ряду 
направлений разработка новых моделей нейронных сетей несомненно 
будет продолжаться, но читатель уже получит достаточно весомый объем 
знаний, позволяющих решать задачи, относящиеся к сфере традицион- 
ного искусственного интеллекта. Предполагается, что у читателя будет 
возникать необходимость время от времени снова обращаться к главе 8 
за информацией, но обратите внимание и на публикации, предлагаемые 
в списке литературы в конце книги. 

В дополнение к материалу данной книги предлагается УМеб-страница, 
размещенная по адресу 


http://www.solent.ac.uk/syseng/faculty/html/staff/rcallan/essnn, 


где можно найти и программное обеспечение по нейронным сетям, KO- 
торое читатель может использовать на своем компьютере. 
Р. Каллан. 
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Глава 1 


Введение 


Задача. Определение основных элементов нейронной сети. 
Цели. Вы должны понять: 


как объяснить простыми словами, что такое нейронная сеть; 
что такое элемент, его связи и функция активности; 

как представить связи в сети в матричной форме; 

как объяснить простыми словами, что означает обучение сети. 


1.1. Введение 


Искусственные нейронные сети представляют собой устройства парал- 
лельных вычислений, состоящие из множества взаимодействующих простых 
процессоров. Такие процессоры обычно исключительно просты, особенно 
в сравнении с процессорами, используемыми в персональных компьютерах. 
Каждый процессор подобной сети имеет дело только с сигналами, которые 
он периодически получает, и сигналами, которые он периодически посылает 
другим процессорам, и, тем не менее, будучи соединенными в достаточно 
болыную сеть с управляемым взаимодействием, такие локально простые 
процессоры вместе способны выполнять довольно сложные задачи. 

Разработка искусственных нейронных сетей началась еще на заре ХХ 
столетия, но только в 90-х годах, когда были преодолены некоторые тео- 
ретические барьеры, а вычислительные системы стали достаточно мощш- 
ными, нейронные сети получили широкое признание. Слово 
“искусственные” в данном контексте иногда используется для того, что- 
бы подчеркнуть, что речь идет об искусственном устройстве, а не 
о реальных биологических нейронных системах типа той, которую имеет. 
человек. Создание искусственных нейронных сетей было инспирировано 
попытками понять принципы работы человеческого мозга и, без сомне- 
ния, это будет влиять и на дальнейшее их развитие. Однако, в сравнении 
с человеческим мозгом, искусственные нейронные сети сегодня пред- 
ставляют собой весьма упрощенные абстракции. Когда ясно, в каком 
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контексте обсуждаются эти сети, слово “искусственный” обычно опус- 
кают. Кроме того, когда требуется подчеркнуть вычислительные возмож- 
ности, а не биологическое соответствие, искусственные нейронные сети 
называют коннекциями. При этом целью “коннекционистов” является 
наделение нейронной сети возможностью решать конкретные задачи, 
а не имитировать с максимальной точностью биологический процесс. 

Хотя нейронные сети могут быть реализованы в виде быстрых аппа- 
ратных устройств (и такие реализации действительно существуют), боль- 
шинство исследований выполняется с использованием программного мо- 
делирования на обычных компьютерах. Программное моделирование 
обеспечивает достаточно дешевую и гибкую среду для поиска и проверки 
исследовательских идей, а для многих реальных приложений такое моде- 
лирование оказывается вполне адекватным и достаточным. Например, 
программная реализация нейронной сети может использоваться для со- 
ставления плана кредитных выплат индивидуума, обращающегося в банк 
за займом. Хотя решение на основе нейронной сети может выглядеть 
и вести себя как обычное программное обеспечение, они различны 
в принципе, поскольку большинство реализаций на основе нейронных 
сетей “обучается”, а не программируется: сеть учится выполнять задачу, 
а не программируется непосредственно. На самом деле в большинстве 
случаев нейронные сети используются тогда, когда невозможно написать 
подходящую программу, или по причине того, что найденное нейронной 
сетью решение оказывается более совершенным. Например, будучи экс- 
пертом по продаже недвижимости, вы можете из своего опыта прекрасно 
знать, какие факторы влияют на продажную цену каждого конкретного 
дома, но при этом часто имеются такие особенности, которые будет 
весьма трудно объяснить программисту. Агентство по продаже недвижи- 
мости может пожелать иметь “предсказателя цен на основе нейронной 
сети”, обученного на множестве примеров реальных продаж тому, какие 
факторы влияют на цену продаваемого объекта, и тому, какую относи- 
тельную важность имеет каждый из этих факторов. Но здесь более важ- 
ным оказывается то, что решение на основе нейронной сети является бо- 
лее гибким, поскольку соответствующая система может в дальнейшем со- 
вершенствовать точность предсказаний по мере накопления ею опыта 
и адаптироваться к происходящим на рынке изменениям. 

Решения на основе нейронных сетей становятся все более совершен- 
ными и, несомненно, в будущем наши возможности по разработке соот- 
ветствующих устройств возрастут за счет лучшего понимания их основопо- 
лагающих принципов. Но уже сегодня имеется немало впечатляющих раз- 
работок. База приложений нейронных сетей просто огромна: выявление 
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фальшивых кредитных карточек, прогнозирование изменений Ha фондовой 
бирже, составление кредитных планов, оптическое распознавание симво- 
лов, профилактика и диагностика заболеваний ‘человека, наблюдение за 
техническим состоянием машин и механизмов, автоматическое управление 
движением автомобиля, принятие решений при посадке поврежденного ле- 
тательного аппарата и т.д. Дальнейшие успехи в разработке искусственных 
нейронных сетей будут зависеть от дальнейшего понимания принципов ра- 
боты человеческого мозга, но здесь имеется и обратная связь: искусственные 
нейронные сети являются одним из средств, с помощью которых совершен- 
ствуется наше представление о процессах, происходящих в нервной системе 
человека, выступая в качестве моделей соответствующих процессов. 

Будущее нейронных сетей кажется вполне ясным, и сегодня это та 
область знаний, о которой должны иметь определенное представление 
все научные специалисты, работающие в области компьютерных техно- 
логий, равно как и многие инженеры и научные работники смежных 
специальностей. 


1.2. Основные компоненты 


Нейронная сеть является совокупностью элементов, соединенных не- 
которым образом так, чтобы между ними обеспечивалось взаимодейст- 
вие. Эти элементы, называемые также нейронами или узлами, представ- 
ляют собой простые процессоры, вычислительные возможности которых 
обычно ограничиваются некоторым правилом комбинирования входных 
сигналов и правилом активизации, позволяющим вычислить выходной 
сигнал по совокупности входных сигналов. Выходной сигнал элемента’ 
может посылаться другим элементам по взвешенным связям, с каждой из 
которых связан весовой коэффициент или вес. В зависимости от значения. 
весового коэффициента передаваемый сигнал или усиливается, или по- 
давляется. Элемент нейронной сети схематически показан на рис. 1.1. 


beh ds Элемент 
eon . _—7 Исходящие связи, 
"НЕ Е задающие сигналы 
от других элементов ugh: a a etn 


Рис. 1.1. Отдельный элемент сети 


Основные компоненты ~ 2 


2 Один из самых привлекательных аспектов использования нейронных 

сетей заключается в том, что, хотя элементы такой сети имеют очень ог- 
раниченные вычислительные возможности, вся сеть в целом, объединяя 
большое число таких элементов, оказывается способной выполнять до- 
вольно сложные задачи (рис. 1.2). 


Скрытые элементы 
ee Входные элементы, принимающие данные OT датчиков деформации 


Один выходной элемент, являющийся индикатором 
технического состояния авиалайнера 


Рис. 1.2. Схема применения нейронной сети для контроля технического состояния 
‚ авиалайнера. Связи элементов показаны стрелками. Входные элементы получают 
информацию непосредственно от датчиков, установленных на борту самолета. Вы- 
ходной элемент является индикатором технического состояния летательного аппарата 


Структура связей отражает детали конструкции сети, а именно то, какие 
элементы соединены, в каком направлении работают соединения и каков 
уровень значимости (т.е. вес) каждого из соединений. Задача, которую по- 
нимает сеть (или ее программа), описывается в терминах весовых значений 
связей, связывающих элементы. Структура связей обычно определяется 
В два этапа: сначала разработчик системы указывает, какие элементы должны 
быть связаны и в каком направлении, а затем в процессе фазы обучения оп- 
ределяются значения соответствующих весовых коэффициентов. 

Весовые коэффициенты можно определить и без проведения обуче- 
ния, но как раз самое большое преимущество нейронных сетей заключа- 
ется в их способности обучаться выполнению задачи на основе тех дан- 
ных, которые сеть будет получать в процессе реальной работы. Для 
многих приложений обучение является не только средством программи- 
рования сети, когда нет достаточных знаний о способе решения задачи, 
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позволяющих выполнить программирование в традиционной форме, но 
часто единственной целью обучения является проверка того, что сеть 
действительно сможет научиться решать поставленные перед ней задачи. 
Существует множество различных типов нейронных сетей, но все рас- 
сматриваемые в данной книге сети обладают рядом общих характери- 
стик, которые можно представить с помощью следующих абстракций. 


e Множество простых процессоров 


e Структура связей 

e Правило распространения сигналов в сети 

e Правило комбинирования входящих сигналов 
e Правило вычисления сигнала активности 

e Правило обучения, корректирующее связи 


Множество простых процессоров 


С каждым процессором (т.е. обрабатывающим элементом сети) связыва- 
ется набор входящих связей, по которым к данному элементу поступают сиг- 
налы от других элементов сети, и набор исходящих связей, по которым сиг- 
налы данного элемента передаются другим элементам. Некоторые элементы 
предназначены для получения сигналов из внешней среды (и поэтому назы- 
ваются входными элементами), а некоторые — для вывода во внешнюю среду 
результатов вычислений (и поэтому такие элементы сети называются выход- 
ными элементами). Любая вычислительная машина имеет хотя бы одно уст- 
ройство ввода (например, клавиатуру), с помошью которого система получает 
данные из внешней среды, и устройство вывода (например, монитор), 
с помошью которого отображаются результаты вычислений. В случае про- 
граммного моделирования реальных процессов на входные элементы обычно 
подаются уже предварительно подготовленные данные из некоторого файла 
данных, а не от непосредственно связанных с внешней средой датчиков. 


Структура связей 


Структура связей отражает то, как соединены элементы сети. В одной мо- 
дели (т.е. для одного типа сетей) каждый элемент может быть связан со все- 
ми другими элементами сети, в другой модели элементы могут быть органи- 
зованы в некоторой упорядоченной по уровням (слоям) иерархии, где связи 
допускаются только между элементами в смежных слоях, а в третьей — могут 
допускаться обратные связи между смежными слоями или внутри одного 
слоя, или же допускаться посылка сигналов элементами самим себе. Воз- 
можности здесь практически бесконечны, но обычно для каждой конкретной 
модели сети указывается тип допустимых связей. Каждая связь определяется 
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тремя параметрами: элементом, от которого исходит данная связь, элемен- 
том, к которому данная связь направлена, и числом (обычно действитель- 
ным), указывающим весовой коэффициент (т.е. вес связи). Отрицательное 
значение веса соответствует подавлению активности соответствующего эле- 
мента, а положительное значение — усилению его активности. Абсолютное 
значение весового коэффициента характеризует силу связи. 

Структура связей обычно представляется в виде весовой матрицы W, 
в которой каждый элемент и, представляет величину весового коэффи- 
циента для связи, идущей от элемента i к элементу j (обратите внимание 
на то, что во многих публикациях связи в весовых матрицах предполага- 
ются идущими от элемента } к элементу 1, что, очевидно, следует учиты- 
вать при представлении матричных и векторных операций). Для описа- 
ния структуры связей может использоваться не одна, а несколько весо- 
вых матриц, если элементы сети оказываются сгруппированными в слои. 
На рис. 1.3 и 1.4 предлагаются примеры представления структуры связей 
в виде соответствующих матриц. 

Матрица весов является памятью сети, хранящей информацию о том, 
как должна выполняться задача. 
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Рис. 1.3. Матрица, описывающая сетевые связи. В данном 
случае, например, вес связи элемента 3 (строка 3) с эле- 
ментом 1 (столбец 1) обозначается символом из; = —0.8 
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Слой 1 Слой 2 Слой 3 


—1.7 


Рис. 1.4. Матрицы, описывающие сетевые связи. В данном 
случае для каждого слоя имеется своя отдельная матрица 


Правило распространения сигналов в сети 


В обычных компьютерных программах используются условия, выпол- 
нение которых определяет начало и конец различных процессов. То же са- 
мое верно и для нейронных сетей. Каждая конкретная модель сети предпо- 
лагает наличие некоторого правила обновления состояния элементов сети 
(т.е. правила комбинирования входящих сигналов и вычисления исходя- 
щего сигнала) и посылки сигнала другим элементам. При этом в одних мо- 
делях моменты обновления элементов выбираются случайным образом, 
в других же моделях обновление некоторых групп элементов допускается 
только после обновления определенных групп других элементов. 


Правило комбинирования входящих сигналов 


Довольно часто входящие сигналы элемента предполагается комби- 
нировать путем суммирования их взвешенных значений. Пример этого 
метода суммирования показан на рис. 1.5, где net; обозначает результат 
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п 
net ; = Sx, 
i=l 
net ; =(0.7X —0.3) + (0.1х3.1) + (0.3хо0.5) 
= 0.25 


или в векторном представлении 


-0.3 
[0.791 ©3631 
0.5 


Рис. 1.5. Типичный метод суммирования сигналов, направ- 
ленных конкретному элементу 


комбинирования ввода элемента j, x; — выход элемента i, ап — число 
задействованных связей. Используются и другие формы комбинирования 
входящих сигналов, и другим часто встречающимся методом является 
рассмотрение квадрата разности между значением силы связи и значени- 
ем передаваемого по связи сигнала с последующим суммированием таких 
разностей для всех входящих связей данного элемента. 


Правило вычисления сигнала активности 


Для всех элементов имеется правило вычисления выходного значения, 
которое предполагается передать другим элементам или во внешнюю 
среду (если речь идет о выходном элементе, представляющем конечный 
результат вычислений). Это правило называют функцией активности, 
а соответствующее выходное значение называют активностью соответст- 
вующего элемента. Активность может представляться либо некоторым 
действительным значением произвольного вида, либо действительным 
значением из некоторого ограниченного интервала значений (например, 
из интервала [0, 1]), или же некоторым значением из определенного дис- 
кретного набора значений (например, {0,1} или {+1, —1}). На вход функ- 
ции активности поступает значение комбинированного ввода данного 
элемента. Примеры функций активности приводятся ниже. 
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Тождественная функция 


Функция активности для входных элементов может быть тождественной 
функцией, и это просто означает, что значение активности (сигнал, посы- 
лаемый другим элементам) оказывается в точности равным комбинирован- 
ному вводу (рис. 1.6). Входные элементы обычно предназначены для распре- 
деления вводимых сигналов между другими элементами сети, поэтому для 
входных элементов обычно требуется, чтобы исходящий от элемента сигнал 
был таким же, как и входящий. В отличие от других элементов сети, входные 
элементы имеют только по одному входному значению. Например, каждый 
входной элемент может получать сигнал от одного соответствующего ему 
датчика, размещенного на фюзеляже самолета. Один этот элемент связывает- 
ся со многими другими элементами сети, так что данные, полученные от од- 
ного датчика, оказываются распределенными между многими элементами се- 
ти. Поскольку входные элементы предназначены исключительно для того, 
чтобы распределять сигналы, получаемые из внешней среды, многие иссле- 
дователи вообще не считают входные элементы частью нейронной сети. 


J (net) 


net . 


Рис. 1.6. Здесь активность в точности равна комбиниро- 
ванному вводу. Обратите внимание на то, что активность 
обозначается символом f(net) 


Пороговая функция 

В большинстве моделей нейронных сетей используются нелинейные 
функции активности. Пороговая функция ограничивает активность зна- 
чениями 1 или 0 в зависимости от значения комбинированного ввода 
в сравнении с некоторой пороговой величиной 6 (рис. 1.7). \ 


1, если net > 9, 
0, если пей < 0. 


Уве) = | 


Рис. 1.7. Пороговая функция 
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Чаще всего удобнее вычесть пороговое значение (называемое смеще- 
нием или сдвигом) из значёния комбинированного ввода и рассмотреть 
пороговую функцию в ее математически эквивалентной форме, показан- 
ной на рис. 1.8. Сдвиг wo в данном случае оказывается отрицательным, 
а значение комбинированного ввода вычисляется по формуле 


n 
net ; = Wo + YW; я 
i=] 


f (net) 


1 вы 


1, если net > 0, 
0, если net, < 0. 


(пе?!) = { 
net 
Рис. 1.8. Пороговая функция с учтенным смещением 


Сдвиг обычно интерпретируется как связь, исходящая от элемента, 
активность которого всегда равна 1 (рис. 1.9). Комбинированный ввод 
в данном случае можно представить в виде 


п 
net ; = XW; 9 
—0 


где всегда считается равным 1. 
x0 


1 Woj 
Wij 

xX} : 
W2j 

Х> 
Из) 

Хз 


Рис. 1.9. Для удобства компонент смещения часто интерпре- 
тируется как связь с элементом предыдущего слоя в пред- 
положении, что активность этого элемента всегда равна 1 


Сигмоидальная функция | 

Наиболее часто используемой функцией активности является сигмои- 
дальная функция. Выходные значения такой функции непрерывно за- 
полняют диапазон OT 0 до 1. Примером может служить логистическая 
функция, показанная на рис. 1.10: 
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1 


СНК 


Наклон и область выходных значений логистической функции могут 
быть разными. Например, для биполярного сигмоида областью выходных 
значений является диапазон между -1 и 1. 


> mee 2 я net 


Рис. 1.10. Сигмоидальная функция 


Пример 1.1 


Этот пример иллюстрирует некоторые понятия, обсуждавшиеся вы- 
ще. Предполагается, что рассматриваемая здесь сеть понимает отно- 
шение ХОК. Отношение ХОК отображает пару двоичных входных 
значений в 0 или 1, точное определение представлено в табл. 1.1. 


Таблица 1.1. Определение ХОВ 


Ввод Вывод 
x X> 

1 1 0 

1 0 1 

0 1 1 

0 0 0 
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Модель сети показана на рис. 1.11, и в данном случае это сеть 
с прямой связью, в которой имеются два входных элемента, два 
скрытых элемента и один выходной элемент. Прямая связь означает, 
что все связи могут идти только в направлении от входного слоя 
к выходному. Скрытые элементы называются так потому, что они не 
получают данных от внешней среды непосредственно и не посылают 
данные непосредственно во внешнюю среду. 


Рис. 1.11. Сеть для примера 1.1 


В данном случае в роли внешней среды можем выступать мы сами, 
подавая различные значения на вход сети (т.е. входным элементам) 
и наблюдая результаты, полученные на ее выходе (т.е. на выходных 
элементах). Элементы сети разделены по слоям: входной слой со- 
держит входные элементы, скрытый слой — скрытые элементы, 


а выходной — выходные. Число элементов каждого слоя зависит от 


решаемой проблемы, ‚и мы обсудим это в главе 2, где сети с пря- 
мой связью будут рассмотрены подробнее. Пока же мы просто об- 
ращаем внимание на то, что число входных элементов равно числу 
вводимых в структуру значений, а число выходных — числу значе- 
ний, подаваемых данной структурой на выход. В нашем случае 
значение комбинированного ввода вычисляется по формуле 


п 
net ; = У хим, 9 
—0 


а вывод получается как результат применения пороговой функции 
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|, если net2=0, 
f (net) = 


О, если net <0. 


Вспомните, что для элементов входного слоя активность представля- 
ется значением, совпадающим со значением комбинированного вво- 
да. Сигналы распространяются по сети от входного слоя к выходно- 
му, так что для каждого конкретного набора вводимых значений по- 
следовательность их обработки будет следующей: 


входной слой -> скрытый слой — выходной слой. 
В качестве вводимых данных рассмотрим первую пару значений BEO- 
да из табл. 1.1, а именно пару значений [1, 1]. Для первого скрытого 
элемента со смещением 1.5 получаем 
net = (хо X1.5) + (мх-1) + (х›х-1 
= (1х1.5) + 1х-1 + 1х-1 =-0.5, 
поэтому выходным значением элемента будет 0. Для второго скры- 
того элемента со смещением 0.5 получаем 
net = (хо X0.5) + (мх-1) + (x) х-1 
= (1ж0.5) + (1х-1) + (1х-1) = -1.5, 
поэтому выходным значением элемента тоже будет 0. Для выходного 
элемента со смешением -0.5 получаем 
net = (хо х-0.5) + (м XI) + (х2х-1) 
= (1х-0.5) + (0х-1) +(0х-1 =-0.5, 
поэтому выходным значением будет 0: Если процедуру повторить 


для трех оставшихся пар, то мы увидим, что вывод указанной сети 
соответствует данным из последнего столбца табл. 1.1. 


Правило обучения, корректирующее связи 


Одно из главных преимуществ нейронных сетей заключается в TOM, 
что они предполагают наличие правил, с помошью которых сеть может 
программироваться автоматически. Например, можно рассмотреть сле- 
дующую функцию, реализуюшую вышеприведенное определение XOR. 


int XOR(int ‘val 1, лас val, 2) 
{ 


if (val 1 == 1 &£& val 2): 1) 
return 0; 

if (value 1 ==.0 &&@ val 2.== 0) 
return 0; 
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if (val 1 == 1 && val 2 == 0) 
return 1; 

1Е (уа1 1 == 0 && val 2 == 1) 
return 1; 


Нельзя сказать, что данный код оптимален и что данная функция не 
может быть реализована иначе. Мы уже видели, что сеть из примера 1.1 
выполняет ту же задачу. Правильное выполнение операции ХОК зависит 
от размещения элементов, выбора функции активности и набора весовых 
значений. Размещение элементов обычно фиксировано уже в начале обу- 
чения и точно так же оказывается заданной функция активности. Поэтому 
целью обучения является изменение весовых значений таким образом, 
чтобы в результате получить требуемые характеристики поведения сети. 


Рис. 1.12. Взвешенная связь двух элементов. Сигнал х ум- 
ножается на весовой коэффициент w. Для выходного эле- 
мента функция активности является тождественной функ- 
цией, что означает равенство вывода у взвешенному вводу 


_Типичной формой обучения является управляемое обучение, когда 
для каждого набора данных, подающегося в процессе обучения на вход 
сети, соответствующий выходной набор известен. Обычно в начале обу- 
чения весовые коэффициенты устанавливаются равными случайным ма- 
лым значениям, так что в первый раз при предъявлении сети учебного 
образца оказывается весьма маловероятным, чтобы сеть произвела вер- 
ный вывод. Расхождение между тем, что даст сеть, и тем, что для данного 
учебного набора должно быть получено на самом деле, составляет ошиб- 
ку, которая может использоваться для корректировки весов. Примером 
правила коррекции ошибок является дельта-правило, называемое также 
правилом Видроу-—Хоффа (Widrow—Hoff rule). Взгляните на рис. 1.12, где 
выходной элемент имеет активность (т.е. вывод) у, а истинный вывод 
должен быть равным 1. Ошибка 6 задается следующей формулой: 


d=t-y. 
Сигнал, приходящий к выходному элементу, обозначен через x. В соот- 
ветствии с дельта-правилом, необходимо внести коррекцию Aw, вычис- 
ляемую по формуле 
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Ди’ =Пдх, 


где И обозначает действительное число, называемое нормой обучения. Но- 
вый весовой коэффициент устанавливается равным сумме значений ста- 
рого веса и коррекции: 


и=и+Аи. 


В алгоритме обучения выполнению операций типа XOR, который будет 
представлен в главе 2, используется обобщенная версия дельта-правила. 

В начале обучения весовые коэффициенты устанавливаются равными 
малым случайным значениям; например, из диапазона [-0.3, +0.3]. В про- 
цессе обучения на вход сети подаются образец за образцом, и в результа- 
те их обработки весовые коэффициенты корректируются до тех пор, пока 
для всех вводимых образцов ошибки не станут меньше некоторого при- 
емлемого достаточно малого значения. В завершение процесса сеть тес- 
тируется на данных, не представленных в фазе обучения: в результате 
можно оценить, насколько хорошо сеть работает с данными, которые 
в процессе обучения были ей неизвестны. 


1.3. Обучение нейронной сети 


Качество работы нейронной сети сильно зависит от предъявляемого 
ей в процессе обучения набора учебных данных. Учебные данные долж- 
ны быть типичными для задачи, решению которой обучается сеть. Обу-. 
чение часто оказывается уникальным процессом, когда приемлемые ре- 
шения многих проблем могут быть получены только в процессе много- 
численных экспериментов. Разработчикам решения на основе нейронной 
сети требуется следующее. 


e Выбрать соответствующую модель сети 
e Определить топологию сети (т.е. число элементов и их связи) 
e Указать параметры обучения 


Часто разработчику необходимо выполнить и предварительную подготов- 
ку данных. Такая предварительная подготовка может быть совсем про- 
стой, — например, перевод с помощью масштабирования значений всех 
признаков (т.е. переменных) в диапазон от 0 до 1, — а может включать 
использование и более сложных статистических процедур. Однако здесь 
следует подчеркнуть, что долгосрочной целью разработки нейронных се- | 
тей является минимизация необходимости прямого влияния разработчи- 
ка на процесс нахождения решения, так как главным преимуществом 
нейронных сетей является их потенциальная возможность вырабатывать 


Обучение нейронной сети в: 


собственные решения. Ha практике лучшие результаты. получаются тогда, 
когда имеется четкое понимание рассматриваемой проблемной области 
знаний и концептуальное понимание проблем построения нейронной сети. 
Данные, используемые для обучения нейронной сети, обычно разде- 
ляются на две категории: одни данные используются для обучения, 
а другие — для тестирования. На самом деле реальные качества нейрон- 
ной сети выявляются только во время тестирования, поскольку успешное 
завершение обучения сети должно означать отсутствие признаков непра- 
вильной работы сети во время ее тестирования. Процесс тестирования 
разрабатывается так, чтобы в его ходе для данной сети можно было бы 
оценить ее способность обобщать полученные знания. Обобщение в дан- 
ном случае означает способность сети правильно выполнять задачу 
с данными, которые оказываются хотя и аналогичными данным, предъ- 
являвшимся сети в процессе обучения, но все же отличными от них. 


1.4. Простой пример обучения 


Давайте рассмотрим относительно простую задачу и выясним, как для ее 
решения можно использовать самый простой тип нейронной сети. Наша сеть 
будет состоять только из одного входного и одного выходного элементов. 

Многие из нас в школе на уроке физики выполняли эксперимент, 
в котором требовалось измерить отклонение металлической пластины 
в зависимости от приложенной к ней нагрузки — гирь определенного ве-_ 
са. Потом необходимо было начертить график отклонения в зависимости 
от веса приложенной нагрузки. График строился по точкам, которые 
должны были в идеале образовать прямую линию. Используя метод наи- 
меньших квадратов, по полученным точкам можно построить прямую ли- 
нию, с помощью которой можно будет предсказать, насколько отклонит- 
ся пластина под нагрузкой, для которой отклонение не измерялось. 
Многие проблемы моделируются с помошью построения прямых (или 
кривых) линий по имеющимся данным. Например, можно анализировать 
графики производства за прошедшие несколько лет, чтобы оценить, 
сколько стиральных машин изготовит фирма в течение следующих двух 
лет. Если тенденция изменения данных соответствует прямой линии, мы 
получим нечто похожее на диаграмму, показанную на рис. 1.13, где дан- 
ные располагаются вдоль прямой, хотя и не существует прямой линии, 
на которой они лежали бы в точности. Этого и следовало ожидать — 
в реальном мире при любом измерении всегда имеются ошибки. 

Уравнение прямой задается формулой 


у=тх+с, 
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0 0.2 0.4 0.6 0.8 1 1.2 | a 


Рис. 1.13. Данные располагаются вдоль прямой линии, HO не лежат в точности Ha пря- 
мой из-за ошибок измерения 


где у и х являются переменными (например, отклонением и нагрузкой), 
т определяет наклон или градиент прямой, а с — значение сдвига (т.е. 
точку, в которой прямая пересекает ось у). Можно провести прямую на 
глаз, а затем измерить ее наклон и значение сдвига, но метод наимень- 
ших квадратов дает нам возможность вычислить m и с. Что означает . 
“наиболее подходящая прямая”? В данном случае это прямая, для кото- | { 
рой сумма квадратов ошибок для всех точек, соответствующих имеющим- 
ся данным, оказывается наименьшей. Что такое ошибки для набора то- 
чек, показано на рис. 1.14. Чтобы найти сумму квадратов ошибок, следу- 
ет возвести значение каждой M3 ошибок в квадрат и просуммировать все 
полученные таким образом значения. 

При использовании метода наименьших квадратов ш находится по 


формуле 
ie tao MD (1.1) 
пУ.х ={2.>) 


ас — по формуле 


Вы i (1.2) 


Простой пример обучения | | 29} 


Вх. Theses 


у» ~ ae a ae 


где x; и у, представляют значения координат для точки i, а п равно чис- 
лу точек. Суммирование выполняется по всем точкам данных. 


34? Ошибка этой точки 


Рис. 1.14. Каждой точке соответствует своя ошибка, равная 
расстоянию от точки до прямой 


1.4.1. Вывод уравнений для т и с 


Этот подраздел не является обязательным, но может оказаться полез- 
ным для лучшего понимания некоторых теоретических понятий, о кото- 
рых пойдет речь в главе 2. 

Как только с данными оказывается сопоставленной некоторая пря- 
мая, с помошью уравнения этой прямой для любого данного значения х 
можно получить оценку соответствующего значения у. В реальности лю- 
бой оценке значения у соответствует своя ошибка. Поэтому для оценки у 
мы можем записать: 


у; = тх, +с+е,, 7.3) 


где е; обозначает ошибку для точки 1. Сумма квадратов ошибок, Е, вы- 
числяется по формуле 


Es pay . (1.4) 
Используя равенства (1.3) и (1.4), получаем: 
Е = YL; — (mx; +ОР (1.5) 


Теперь, рассмотрев частные производные уравнения (1.5), мы увидим, 
как зависит общая ошибка от изменения т и с: 


дЕ 

р = -2) x;[y; —(mx, + с)], (1.6) 
E 

= = -2> [yj - (mx; + с)]. (1.7) 


Если (1.6) и (1.7) приравнять к 0 и решить соответствующие уравнения, 
будут получены равенства (1.1) и (1.2). 

Метод наименьших квадратов дает эффективный способ нахождения 
прямой, наилучшим образом соответствующей имеющемуся набору дан- 
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ных. Метод прост в применении, HO его обоснование требует определен- 
ного уровня знания математики. Для нахождения прямой, соответствую- 
щей имеющемуся набору данных, можно использовать нейронную сеть. 
Такой сети нужно просто предоставить учебные данные и дать возмож- 
ность обучиться на них. 

Сеть с одним входным и одним выходным элементами была обучена 
проводить прямую линию на основе анализа имеющихся данных 
(см. рис. 1.13). В этой сети использовалась линейная функция активно- 
сти. Задача требовала, чтобы сеть оценивала т и с, поэтому Mm и с явля- 
ются параметрами сети (т.е. весовыми коэффициентами), значения для 
которых перед началом обучения были выбраны случайным образом из 
диапазона между -0.3 и +0.3. Модель сети показана на рис. 1.15. Данны- 
ми для обучения были значения координаты х для каждой точки и соот- 
ветствующие целевые значения координаты у. Вес с на входе имеет зна- 
чение | (с, умноженное на 1, равно с; этот вес задает смещение). Для 
обучения сети использовалось дельта-правило, а норма обучения была 
выбрана равной 0.1. Обучение заканчивалось после рассмотрения каждой 
точки 10000 раз. 


x m 


Рис. 1.15. Линейный элемент, который можно 
обучить найти прямую для данных на рис. 1.16 


Оценки для m и с, полученные с помощью сети, в результате приме- 
нения метода наименьших квадратов, представлены в следующей табли- 
це, а линия, найденная сетью, показана на рис.1.16. 


Параметр Метод наименьших квадратов Сеть 
m 1.0085 _ 1.0284 
с 1.0450 1.0360 


На самом деле совсем не удивительно, что сеть по сравнению с ме- 
тодом наименьших квадратов дает сравнимые результаты, поскольку, 
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как мы увидим в главе 2, дельта-правило обучения выводится из прин- 
ципа минимизации суммы квадратов ошибок. Наша сеть решила дан- 
ную задачу путем обобщения результатов вывода в зависимости от вво- 
да, подобрав для них некоторую линейную зависимость. В нашем слу- 
чае сеть моделирует прямую линию, но большие нейронные сети с 
нелинейными функциями активности могут подбирать для данных обу- 
чения весьма сложные формы и таким образом решать многие весьма 
сложные задачи. 


2.5 

2 

Ф — Данные 

15 = Оценка 
Bi нейронной сети 

0 ——— Результат метода 

наименьших квадратов 

0.5 

0 


0 0.5 1 1a 


Рис. 1.16. Данные и соответствующая прямая, найденная с помощью нейронной сети, 
схема которой показана на рис. 1.15. Найденная нейронной сетью прямая мало отлича- 
ется от прямой, получаемой при использовании метода наименьших квадратов 


1.5. Резюме 


e Нейронная сеть представляет собой совокупность простых обраба- 
тывающих элементов, посылающих сигналы один другому по 
взвешенным связям. 


e Типы связей, допустимых между элементами в сети, зависят OT 
конкретной модели сети. 


e ДЛЯ каждого элемента сети имеется правило суммирования посту- 
пающих сигналов и правило вычисления выходного сигнала, по- 
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сылаемого затем другим элементам сети. Правило вычисления вы- 
ходного сигнала называется функцией активности. 


e Нейронная сеть может обучаться выполнению определенной 
задачи и обычно в привычном смысле не программируется. 
Обучение заключается в изменении значений весовых коэф- 
фициентов. В ходе обучения величина, на которую должен из- 
мениться весовой коэффициент, вычисляется с помошью соот- 
ветствующего правила. | 


1.6. Дополнительная литература 


Эта книга создавалась как введение в область нейронных сетей, ставящее 
своей целью подготовить читателя к пониманию более сложных публикаций. 
В дальнейшем в книге вы встретите множество ссылок на другие печатные 
издания. Некоторые из рекомендованных публикаций освещают очень узкие 
аспекты нейронных сетей. Среди прочих ссылок, читателю будут встречаться 
и ссылки на следующие наиболее интересные книги, которые настоятельно 
нами рекомендуются для более глубокого понимания предмета. 

В книге Фосетта [Fausett, 1994] более подробно освешены темы, рас- 
смотренные в первых шести главах нашей книги. Большинство посвя- | 
щенных нейронным сетям текстов использует много математических вы- 
кладок. Хотя книга Фосетта и является математической, рассматривае- 
мые в ней вопросы освешаются довольно подробно, а объяснения 
сопровождаются хорошими примерами. 

Книга Хейкина [Haykin, 1994] He для тех, кто боится математики. 
В ней с достаточной подробностью рассматриваются различные типы ap-— 
хитектуры сетей. Большинству студентов книга покажется слишком. 
сложной, если использовать ее для знакомства с предметом, но она мо- 
жет быть превосходным справочным пособием, если вы пожелаете углу- 
бить свои знания в области нейронных сетей. 

Книге Румелхарта и др. [Rumelhart et a/., 19866] мы в значительной степе- 
ни обязаны за возрождение интереса к нейронным сетям, последовавшим за 
довольно спокойным периодом исследований 70-х годов. Эта книга часто ци- 
тируется в изданиях, посвященных нейронным сетям. Хотя книга, вероятно, 
отчасти и устарела, в ней можно найти еще немало полезных идей, и ее сто- 
ит почитать хотя бы из-за той роли, которую она сыграла в истории развития 
нейронных сетей. В целом книга интересна, а автор книги, которую вы дер- 
жите в руках, когда-то реализовал на языке. С свою первую использующую 
алгоритм обратного распространения сеть, имея в качестве единственного 
учебника именно эту книгу (и та программа действительно работала). 
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1.7. Упражнения 


1. Для данных, представленных ниже, начертите на глаз несколько пря- 
мых, которые могут соответствовать этим данным. Запишите уравне- 
ния этих прямых, измерив соответствующие наклоны и координаты 
точек пересечения прямых с осью у. Для каждой прямой вычислите 
среднеквадратическую ошибку при условии, что для вводимых значе- 
ний х вывод задается формулой 


ВЫВОД = mx + с. 


р. Требуемый вывод 
0.30 1.60 
0.35 1.40 
0.40 1.40 
0.50 1.60 
0.60 1.70 
0.80 2.00 
0.95 1.70 
1.10 2.10 


2. Для данных из упражнения 1 найдите прямую, получаемую в резуль- 
тате применения метода наименьших квадратов. 


3. Для данных упражнения | и заданных начальных весовых коэффи- 
циентов 


вывод = 0.5х + 0.5 


вычислите новую прямую после одного прохода через данные, ис- 
пользуя правило обучения Видроу—Хоффа (дельта-правило) с нормой 
обучения, равной 0.3. (Замечание: после рассмотрения каждого учеб- 
ного образца получается новая прямая.) 


4. Наша подбирающая прямые линии нейронная сеть из раздела 1.4 
имела один входной элемент, а целью было нахождение весовых ко- 
эффициентов, при которых по заданному х можно было бы оценить у. 
Как будет показано в главе 2, во многих задачах требуется знать, с ка- 
кой стороны от прямой (т.е. выше или ниже ее) будет располагаться 
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точка данных. Представьте полученную в результате решения упраж- 
нения 2 прямую в следующем виде: 


6600(x, у) = тх-у+с. 


Вычислите ввод для всех точек данных, определенных в формулиров- 
ке упражнения 1, и для каждой точки найдите выходное значение, 
используя двоичную пороговую функцию. Как вы думаете, можно ли 
моделировать с помощью нейронной сети вычисление значений ввода? 
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Глава 2 


Классификация образцов 


Задача. Описание проблемы классификации и нейронных сетей, 
способных выполнять классификацию образцов. 


Цели. Вы должны понять: 


что такое проблема классификации и что такое управляемое 
обучение; 

на основе чего выполняется классификация в сетях с 
прямой связью; 

принципы построения сетей с прямой связью, в которых 
используется алгоритм обратного распространения ошибок, 
чтобы иметь возможность реализовать такую нейронную 
сеть на языке программирования, который вы предпочтете; 
разницу между линейной и нелинейной проблемами. 


Требования. Знание основ линейной алгебры на уровне, представленном 
в приложении А. Для понимания некоторых разделов 
требуется знание основ дифференцирования, но это 
не слишком важно с точки зрения указанных выше целей. 
Знакомство с материалом главы 1. 


2.1. Приложения 


Многие приложения можно интерпретировать, как проблемы класси- 
фикации. Например, если вы работаете администратором в банке и вам 
приходится решать, следует выдать кому-то кредит или нет, вы можете 
классифицировать всех потенциальных клиентов по уровню риска: низ- 
кий, средний или высокий риск. При оптическом распознавании симво- 
лов сканируемые символы тоже ассоциируются с соответствующими им 
классами. Имеется немало вариантов изображения буквы “Н” даже для 
одного конкретного шрифта — символ может оказаться, например, сма- 
занным, — но все эти изображения должны принадлежать классу “H”. 
Распознавание слов в звуковой записи, воспроизводимой динамиком 
магнитофона, дает нам еше один из множества примеров классификации. 
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Когда мы знаем к какому классу относится каждый из учебных приме- 
ров, можно использовать управляемое обучение. Задачей для сети является 
ее обучение тому, как сопоставить предъявляемый сети образец с кон- 
трольным целевым образцом, представляющим нужный класс. Например, 
сети можно предъявить изображение буквы “Н” и обучить сеть тому, что 
при этом соответствующий “Н” выходной элемент должен быть включен, 
а выходные элементы, соответствующие другим буквам, — выключены. 
В этом случае входной образец может быть набором значений, характери- 
зующих пиксели изображения в оттенках серого, а целевой выходной обра- 
зец — вектором, значения всех координат которого должны быть равными 0, 
за исключением координаты, соответствующей выходному элементу, пред- 
ставляющему “Н” (значение этой координаты должно быть равным 1). 

Основная часть материала этой главы посвяшена описанию наиболее 
часто используемого сегодня типа нейронных сетей, а именно сетям 
с обратным распространением ошибок. Такие сети используются при 
решении целого ряда задач, начиная от распознавания объектов по сиг- 
налам гидролокатора до моделирования дислексии — проблемы, возни- 
кающей у некоторых людей при распознавании слов. 


2.2. Основные идеи 


В этом разделе рассматриваются основные понятия, необходимые для 
описания модели сети, использующей алгоритм обратного распростране- 
ния ошибок, о котором пойдет речь в разделе 2.4. | 


2.2.1. Функция выбора решения 


Чтобы описать, каким образом работает нейронная сеть, рассмотрим 
тривиальную задачу и используем для решения этой задачи самый про- 
стой тип сети. 

Иллюстрация такой задачи классификации представлена на рис. 2.1. За- 
дача состоит в выработке правил классификации самолетов для бомбарди- 
ровшиков и истребителей в зависимости от их максимальной скорости и 
максимального взлетного веса. Такие правила могут быть заданы формально: 


ЕСЛИ вес > 0.80 И скорость < 0.55, ТО бомбардировщик, 
ЕСЛИ вес < 0.90 И скорость > 0.25, ТО истребитель. 


Эти правила используют дискретные граничные значения, разделяю- 
щие пространство всех значений на прямоугольные области. Разделение, 
порожденное этими правилами, вполне успешно классифицирует само- 
леты, представленные на нашей диаграмме, но оказывается не слишком 
гибким, если по этим правилам придется классифицировать новый само- 
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@ Боюмбардировщик 


И Истребитель 


Скорость 


Рис. 2.1. Разделение абстрактных данных на два класса 


лет. Кроме того, эти правила в указанном виде ничего не сообщают 
о том, насколько точной будет классификация нового самолета. 

Альтернативный подход к использованию правил заключается в выво- 
де функции классификации путем построения прямой, разделяющей два 
класса. Для нового самолета нам нужно просто указать точку на плоско- 
сти, соответствующую известным значениям максимальной скорости 
и максимального взлетного веса и посмотреть, по какую сторону от пря- 
мой будет расположена эта точка. В данном случае для небольшого коли- 
чества самолетов рассмотрены два признака, скорость и вес, поэтому 
можно представить данные в виде изображения на плоскости. Однако, 
если придется иметь дело с сотнями самолетов и значительно большим 
числом признаков (Т.е. в случае многомерной задачи), задачу классифи- 
кации в виде простой картинки представить будет невозможно. 

Выход заключается в использовании функции выбора решения. Урав- 
нение прямой, разделяющей два типа самолетов, записывается в сле- 
дующем виде: 
xX, =1.5x,+0.5, 


где x, представляет скорость, a x, — вес. Это уравнение можно исполь- 
зовать для создания функции выбора решения: 
АО, х›) =-=х› +1.5х + 0.5, 


истребитель, если f(x, x) 20, 


бомбардировщик, если f(x, xX) < 0. 


Например, истребитель, представленный точкой (0.4, 0.5), даст 
f (0.4, 0.5) =-0.5 +1.5х0.4 +0.5 =0.6, 


и функция выбора решения правильно классифицирует эту точку, как 
истребитель. 
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Предлагаемую функцию выбора решения можно моделировать 
с помошью нейронной сети и даже реализовать в виде аппаратных 
средств. На рис. 2.2 показана сетевая модель для данной функции вы- 
бора решения. Сетевой ввод для центрального элемента находится пу- 
тем умножения переменных ввода, x, и Xz, на соответствующие их 
взвешенным связям коэффициенты с последующим суммированием ре- 
зультатов. Указанное на схеме значение смещения тоже добавляется 
в сумму, в результате чего получается значение комбинированного вво- 
да для данного элемента. Как было показано в главе 1, вся сумма имеет 
следующий вид: 


п 
net ; = Wo + У XW ‘ 
. isl 
/ 
где net; представляет значение комбинированного ввода, Wo — смеше- 
ние, связываемое с элементом, значение активности которого считается 
всегда равным 1, x; — значение активности 1-го элемента, а и, — вес 
связи, ведушей от элемента с номером i к элементу с номером j. Для 
элемента, показанного на рис. 2.2, выходное значение вычисляется со- 


гласно критерию пороговой функции: 


1, если комбинированный ввод > 0, 
выход = fi 
0, если комбинированный ввод <0. 


Выходное значение | должно указывать Ha то, что самолет является ис- 
требителем, а значение 0 должно соответствовать бомбардировщику. 


x, ®— 15 тн а 
1.0 
и 


Рис. 2.2. Простая нейронная сеть 


Хх, 


Ввод для сети на рис. 2.2 пропускается через пороговую функцию, 
в результате чего порождается выходное значение, равное 0 или 1. Вместо 
указанной пороговой функции можно было бы использовать любую 
другую функцию, дающую выходные значения в диапазоне от 0 до 1. 
Так, если выходное значение оказывается равным 0.9, мы можем быть 
практически уверены, что самолет является истребителем, а вот значение 


Основные идеи 39 


Ал 


0.5 не дает нам уверенности относительно его классификации. На самом 
деле систему можно использовать не только для классификации, а и для 
оценки степени точности такой классификации. 


Пример 2.1 


(а) Вычислите комбинированный сетевой ввод для элемента на 
рис. 2.2 и соответствующее выходное значение при использова- 
нии пороговой функции и входного вектора [0.7 2.5]. 


(6) Вычислите выходное значение, использовав в качестве функции 
активности сигмоидальную функцию. Входной вектор остается 
таким же, как и вп. (а). 


(в) Вычислите комбинированный ввод для сети с архитектурой, по- 
казанной на рис. 2.2, но с набором весовых значений [- 
0.2 0.03 1.2] и таким же входным вектором, как и вп. (а). 


Решение 2.1 


(а) Порядок элементов во входном векторе говорит о том, что 
х =0.7 и х, =0.5. Таким образом, комбинированный ввод ока- 
зывается равным 


0.5 + (0.7 X1.5) + (2.5ж-1) = -0.95. 


Комбинированный ввод оказывается отрицательным, поэтому 
вывод равен 0. 


(6) Активность в случае сигмоидальной функции вычисляется по 
следующей формуле: 
1 
1+ехр(-пе! № 


f (net ;) = 


Комбинированный ввод равен -0.95, и подстановка этого значе- 
ния в сигмоидальную функцию дает выходное значение 0.28. 


(в) В этой книге в весовых матрицах соответствующие строкам индек- 
сы указывают на элементы, от которых исходят связи, а индексы, 
соответствующие столбцам, указывают на элементы, к которым эти 
связи направлены. Порядок размещения весовых значений в мат- 
рице весов означает, что смещение равно -0.2, а для элемента, от 
которого исходит смещение, значение активности должно быть 
равным |. Если входной вектор обозначить х, а вектор весов — у, 
то комбинированный ввод элемента можно выразить в виде | 


net ; = XW 
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при условии, что ВХОДНОЙ вектор включает и значение активности 
элемента смещения. Добавляя ко входному вектору значение ак- 
тивности элемента смещения, для комбинированного ‚ввода 


в нашем случае получаем 


—0.2 
net = [1: 0.7..25]| - 0.03 + 
re 
= (1х-0.2) + (0.7 x 0.03) + (2.5х1.2) 


= 2.82. 


Пример 2.2 


Найти весовые коэффициенты для модели нейронной сети, подоб- 
ной показанной на рис. 2.2 и представляющей следующее уравнение: 


2х› = -4х +8. 


Решение 2.2 


Для любой точки, лежащей на указанной прямой, весовые коэффи- 
циенты можно определить из уравнения 


Wo + XW + X2W > = 0 ; 


Отсюда получаем 


И’ И» 


Сравнивая члены полученного равенства с коэффициентами, ука- 
занными в условии примера, имеем 


Е оО. © 


и) 2 W2 


Таким образом, wo =-8, а м. =2. 


2.2.2. Корректировка весов 


Из рис. 2.1 должно быть ясно, что имеется целое множество прямых, 
которые могут быть выбраны в качестве границы, разделяющей данные, 
поэтому имеется целое множество весовых значений, дающих подходя- 
щее решение. Если требуемый выход 1-го элемента обозначить 1,, а на- 
блюдаемый на самом деле — о;, то ошибка Е, для образца р может 
быть определена по формуле 


J ’ 
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Уи 0, he it Mad) 


а полная ошибка будет равна E= ри а Множитель 1/2 включен здесь 
в формулу с целью упрощения выкладок в разделе 2.2.3. 

_ Активность любого элемента зависит от комбинированного ввода 
этого элемента, а значит, от весовых значений, влияющих на этот эле- 
мент. Представьте себе элемент, подобный показанному на рис. 2.2, но 
без смещения. Такой элемент может моделировать любую прямую, про- 
ходящую через начало координат. В случае линейного элемента и одного 
образца равенство (2.1) можно записать в виде 


в. 


Е = 5 (t~net)’, 


так как для линейного элемента вывод оказывается равным вводу. Разво- 
рачивание правой части равенства дает 


Е = =r — 2t net +net? | 
(2.2) 


= 5 |? — 2t(xyw, + X2W2) + хи + 2х илхои”> + x33 | : 


где net = x,w, + х›и› . Дифференцируя равенство (2.2) по w,, получаем 
дЕ 
ди 


Равенство (2.2) говорит о том, что зависимость квадрата ошибки от и’ 
является параболической, как показано на рис. 2.3, а если приравнять 
к нулю правую часть равенства в (2.3) и решить полученное таким обра- 
зом уравнение, можно найти точку минимума соответствующей кривой. 


= (-t + хм + хм) . (2.3) 


Е? 


п и 


Рис. 2.3. Прямая линия представляет производную ошибки 
в зависимости от веса в момент времени п 
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Вспомните главу 1: перед началом обучения весовые коэффициенты 
устанавливаются равными некоторым случайным значениям. При этом 
точка, представляющая начальное состояние сети, может оказаться в лю-. 
бом месте на поверхности ошибок, но очень маловероятно, чтобы она 
оказалось в точке минимума этой поверхности. В процессе обучения сеть 
должна корректировать весовые коэффициенты так, чтобы максимально 
уменьшить значение общей ошибки. Другими словами, весовые коэффи- 
циенты должны корректироваться в том направлении, в котором спуск 
вниз по поверхности ошибок происходит быстрее всего. На рис. 2.3 эта 
идея иллюстрируется для одного веса, где п обозначает время или итера- 
цию. Для случая двух весовых коэффициентов получается чашевидная 
поверхность ошибок, подобная показанной на рис. 2.4. 


Е? 
Wi 
Весовой вектор, 
дающий 
минимальную ошибку 
W2 


Рис. 2.4. Поверхность, представляющая величину ошибки 
для разных комбинаций весовых коэффициентов 


2.2.3. Минимизация квадрата ошибки 


Один из экспериментов, который многие из нас выполняли в школе, 
состоял в нанесении на координатную сетку точек, соответствующих ве- 
личине изгиба металлической пластины в зависимости от приложенной 
к ней нагрузки, с последующим построением прямой, для которой сумма 
квадратов расстояний от полученных точек до прямой оказывалась ми- 
нимальной. Тот же принцип можно использовать для корректировки ве- 
сов, и одно из таких правил корректировки весов, называемое правилом 
Видроу—Хоффа или дельта-правилом, уже упоминалось в главе 1. Это 
правило записывается в следующем виде: 


Основные идеи — _ 4 


где г, обозначает требуемое значение для элемента }, о ; — его реаль- 
ный вывод, x; — сигнал, приходящий от элемента i, 7 — норма обу- 
чения (коэффициент, от которого зависит величина изменения веса), 
а Ди, — величина, на которую изменяется вес для связи, идущей от 
элемента i к элементу j. 

Это правило очень просто получается в случае линейного элемента, 


когда вывод определяется следующей формулой: 


о; = Ухму. 
j 


Используя цепное правило, можно выразить производную поверхности 
ошибок в зависимости от веса в виде произведения, характеризующего из- 
менение ошибки в зависимости от вывода элемента, и изменение вывода 
в зависимости от связанных с элементом весовых коэффициентов: 


QE _ dE 00; 


ду’; do; ду’. 
дЕ 
= =-5, (это следует из (2.1) и определения д, в (2.4)), 
О: 
j 
a 
sell on 
/ ди, 
откуда, возвращаясь к (2.5), получаем 
дЕ 
aw matt 


Принимая во внимание тот факт, что вес должен изменяться в направле- 
нии, противоположном направлению вектора градиента, и умножая на 
норму обучения, приходим к равенству (2.4). 

Модификация этого метода корректировки весов будет рассмотрена 
в разделе 2.4, re oHa будет использоваться для обучения сетей с несколькими 
слоями элементов, но сначала мы должны обсудить преимущества таких се- 
тей в сравнении с сетью, в которой имеется только один слой весовых значе- 
ний (Т.е. только слой входных элементов и слой выходных элементов). 


2.3. Линейные и нелинейные проблемы 


Сеть на рис. 2.2 имеет два входных элемента для двух признаков. 
Число признаков определяет размерность пространства, из которого вы- 
бираются все вводимые образцы: для двух признаков пространство ока- 
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зывается двумерным, для трех — трехмерным, a для п признаков про- 
странство оказывается п-мерным. Простая модель сети, состоящей из 
трех входных и одного выходного элемента, будет моделировать плос- 
кость, а модель с п входными элементами будет п-мерной гиперплоско- 
стью. Для задачи классификации, например, выяснения типа самолетов, 
если прямая (для размерности два) или гиперплоскость (для размерности. 
п) может разделить все образцы на соответствующие им классы, то про- 
блема является линейной. Если же для решения проблемы разделения об- 
разцов на классы требуется несколько прямых или гиперплоскостей, то 
проблема называется нелинейной. Широко известным примером нели- 
нейной проблемы является упоминавшаяся в главе | проблема моделиро- 
вания отношения XOR. Отношение XOR при выводе дает | только тогда, 
когда в точности одно из вводимых значений равно 1, иначе вывод ока- 
зывается равным 0. Определение отношения ХОК приведено в табл. 1.1. 
Проблема XOR, таким образом, является нелинейной, и для ее решения 
с помошью нейронной сети имеется две возможности: либо использовать 
сеть, которая будет строить две или больше прямых для разделения дан- 
ных, либо изменить вид вводимых данных. Последняя возможность мо- 
жет превратить проблему в линейную, если к двум имеющимся вводи- 
мым признакам добавить третий и сделать пространство вводимых дан- 
ных трехмерным (в результате два класса будут размещаться в двух 
противоположных вершинах куба). Мы на самом деле не будем считать по- 
следнюю возможность нейронным решением, поскольку добавление 
третьего признака означает, что мы вмешиваемся в процесс принятия ре- 
шения, тем более, что для целого ряда сложных проблем такое вмешатель- 
ство оказывается невозможным. Поэтому мы предпочитаем, чтобы сеть ра- 
ботала в условиях нелинейной проблемы. Таким образом, мы сосредото- 
чимся на решении, использующем две прямых для разделения данных в их 
исходном двухмерном виде. Такая сеть потребует два элемента, каждый из 
которых получит на входе по два значения, чтобы представить две разде- 
ляющие прямые, и третий элемент, объединяющий информацию об этих 
двух прямых. Проблема моделирования отношения XOR разделяющими 
границами иллюстрируется на рис. 2.5. На рис. 2.6 показана архитектура 
нейронной сети, которая будет моделировать две разделяющие границы. 
Давайте выясним, что происходит с подаваемым на вход образцом 
в первом слое. Для элементов входного слоя будут использоваться индекс 
i, для элементов скрытого слоя — j, а для элементов выходного слоя — К. 
В сети на рис. 2.6 элементы разделены на три слоя. Элементы первого 
слоя являются элементами ввода данных в сеть. Не забывайте о том, что 
эти элементы отличаются от элементов последующих слоев тем, что они 
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(0, 1) (1, 1) 


Прямая 2 


Прямая 1 


(0, 0) (1, 0) 


Рис. 2.5. Проблема XOR, решаемая с помощью двух разделяю- 
щих прямых 


Входной слой и Скрытый слой Выходной слой 


Рис. 2.6. Нейронная сеть для моделирования отношения XOR; вто- 
рой слой весовых значений будет показан ниже 


не имеют функции преобразования (т.е. вывод этих элементов оказывается 
равным вводу). Второй слой элементов называется скрытым слоем — скры- 
тые элементы связаны только с другими элементами и не имеют непосред- 
ственных связей с внешней средой. Выходной слой предназначен для пере- 
дачи ответа сети во внешнюю среду. В табл. 2.1 показаны комбинированный 
ввод и вывод (при использовании пороговой функции) для элементов скры- 
того слоя при ответе сети на вводимые данные проблемы XOR. 
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Таблица 2.1. Реакция скрытых элементов сети, показанной Ha рис. 2.6 


Комбинированный ввод скрытого слоя Вывод скрытого слоя 
x; Xp Элемент 1 Элемент 2 Элемент | Элемент 2 
1 1 05 “15 0 0 
1 0 0.5 A 5 1 0 
0 1 0.59 -0.5 0 
1 


0 0 1.5 0.5 1 


Вводимые образцы преобразуются под действием весовых коэф- 
фициентов первого слоя и скрытых элементов. Второй слой весов, 
соединяющих скрытый слой с выходным слоем, тоже будет модели- 
ровать прямую, поскольку ‘у единственного выходного элемента 
также имеется два вводимых значения и значение смещения. Если 
выходной элемент правильно указывает класс, соответствующий каж- 
дому вводимому образцу, то данные ввода для второго слоя ве- 
сов должны быть линейно отделимы. Мы можем проверить это с по- 
мошью нанесения на плоскость точек, соответствующих выводу 
скрытых элементов, как показано на рис. 2.7. На рис. 2.8 указаны ве- 
совые коэффициенты, для которых получается разделяющая прямая, 
показанная на рис. 2.7. | 


(0, 0) 


(0, 1) 


(1, 1) 
(1, 0) 


Рис. 2.7. В результате прохождения первого слоя Be- 
сов исходная точка (0, 1) переместилась в (1, 0). Об- 
ратите внимание на то, что точки (0, 0) и (1, 1) поме- 
нялись местами 
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a 
nit ` 
“УЖО, 


зе i 
—1] 
4 —0.5 


Рис. 2.8. Полная структура сети для решения проблемы ХОВ 


Чтобы проверить правильность работы сети, необходимо проверить 
реакцию сети на каждый из вводимых образцов. Весовыми значениями 
первого слоя являются 


Tod ys вы 
>10: HEA 
i oD 


Если для весовых коэффициентов использовать обозначение ",, TO вес 
"о должен быть равным -1, что соответствует весу связи, идущей от 
элемента | входного слоя к элементу | скрытого слоя, и располагаться 
в строке 2 и столбце 1 матрицы, поскольку индексация начинается с ну- 
ля. В табл. 2.2 для данных ввода XOR показан полный набор ответов се- 


ти, представленной на рис. 2.8. 


Таблица 2.2. Ввод и вывод для сети типа 2-2-1 


Входной Первый слой Реакция скрытого слоя Второй слой Реакция выход- 
вектор, р весов весов НОГО СЛОЯ 
Комбинированный ввод Вывод Ввод Вывод 
BEE РАС BEDI Е Е АА И IE AEE RESIN CR tO COREE вЫ 
ped. Wl AS 03 [-0.5 -1.5] [0 0] -0.5 -0.5 0 
—1.0 -1.0 1.0 
-1.0 -1.0 —1.0 
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Окончание табл. 2.2. 


Входной Первый слой Реакция скрытого слоя. Второй слой Реакция выход- 
вектор, р весов весов ного СЛОЯ 
Комбинированный ввод Вывод Ввод Вывод 
Ш 1 Of 15 0.5] [0.5 -0.5] [I 0] —0.5 Oe ee 
—1.0 -1.0 1.0 
-1.0 -1.0 —1.0 
[от] 1.5 0.5] [0.5 -0.5] [I 0] —0.5 0.5 1 
—1.0 -—1.0 1.0 
—1.0 -1.0 —1.0 
[Шо Of 15 0.5] [1.5 0.5] [i 1] —0.5 0.5 0 
-1.0 -1.0 1.0 
—1.0 -1.0 —1.0 


Итак, мы вручную построили многослойную нейронную сеть, ре- 
шающую классическую проблему XOR, но в действительности нас инте- 
ресует создание механизма, который позволил бы сети научиться находить 
решение самостоятельно. Прежде чем обратиться к рассмотрению алгорит- 
ма обучения, дающего возможность сети научиться находить решения, не- 
обходимо подчеркнуть важность функции преобразования (функции ак- 
тивности), связываемой с каждым элементом. Примером нелинейной 
функции активности является пороговая функция. Примером линейной 
функции является тождественная функция, при которой вывод оказывается 
равным вводу. Ограничения сети с линейными элементами иллюстрируют-. 
ся на рис. 2.9. Показанная на рисунке сеть имеет два входных элемента, 
два скрытых элемента и три выходных элемента. Матрицы весовых значе- 
ний включают весовые коэффициенты смещений и имеют вид 


La eZ 
ZO. OD 
rede TO 
для первого слоя и 
2.9 1.0.30 
—1.0 5.0 4.0 
~3.0"1.0 2.0 
для второго. 
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Рис. 2.9. Сеть типа 2-2-3 


Для входного вектора [1.0 0.0 1.0] ввод (а также и вывод, ввиду ис- 
пользования линейной функции преобразования) скрытых элементов за- 
дается следующим образом: 


1.0 -2.0 
[1.0 0.0 1.0]! 2.0 0.5|= [-2.0 -1.0]. 
-30 10 


Ввод и вывод для выходного слоя получается в результате присоединения 
к скрытым элементам значения 1.0, равного значению активности сме- 
щения, и умножения на второй слой весов: 
2.0 1.0 3.0 
[1.0 -2.0 -1.0]| -1.0 5.0 4.0|=[7.0 -10.0 -7.0]. 
—3:0 1.0 2.0 


Рассмотрим теперь следующее произведение: 


50.20. 90 
[1.0 0.0 1.0]|-3.5 105 9.0|=[7.0 -10.0 -7.0]. 
2.0 -13.0 -10.0 


Оно дает TOT же результат, что и предыдущее, являющееся результатом 
двух матричных умножений. Из ассоциативного закона умножения мат- 
риц следует, что в случае линейных функций активности можно найти 
один слой весов, дающий тот же результат, что и сеть с несколькими 
слоями. Другими словами, многослойная сеть с линейными функциями 
активности сможет решать только те проблемы, которые могут быть ре- 
шены однослойной сетью (т.е. сетью, имеющей только входные и выход- 
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` 


ные элементы). Таким образом из рассмотрения выпадают нелинейные 
проблемы. Итак, для многослойных сетей необходимо рассматривать не- 
линейные функции активности, а для алгоритма, к обсуждению которого 
мы собираемся приступить, такая функция должна быть непрерывной, 
дифференцируемой и монотонно возрастающей. Функцией, удовлетво- 
ряющей всем этим требованиям является логистическая функция 
(см. главу 1, рис. 1.10). 


2.4. Обучение по алгоритму обратного 
распространения ошибок 


На протяжении многих лет не знали правила, которое можно было бы 
использовать для корректировки весов многослойной сети в процессе 
управляемого обучения. В 70-х годах Вербос (Werbos) разработал подхо- 
дящий алгоритм корректировки весов, но только Румелхарт и др. 
[Rumelhart et а/., 1986а] смогли дать новый толчок развитию нейронных 
сетей. Правило корректировки весов, о котором идет речь, называется 
алгоритмом обратного распространения ошибок. В дальнейшем в этом 
разделе мы будем рассматривать полносвязную сеть с прямой связью, т.е. 
сеть, в которой сигналы активности передаются только в направлении от 
входного слоя к выходному, а элементы одного слоя соединены со всеми 
элементами следующего слоя. 

Алгоритм обратного распространения определяет два потока в сети: 
прямой поток от входного слоя к ‘выходному и обратный поток — OT вы- 
ходного слоя к входному. Мы уже видели, что прямой поток продвигает 
входные векторы через сеть, в результате чего в выходном слое получа- 
ются выходные значения сети. Обратный поток подобен прямому, но он 
продвигает назад по сети значения ошибок, в результате чего определя- ' 
ются величины, в соответствии с которыми следует корректировать весо- 
вые коэффициенты в процессе обучения. В обратном потоке значения 
проходят по взвешенным связям в направлении, обратном направлению 
прямого потока. Например, в прямом потоке элемент скрытого слоя посы- 
лает сигналы каждому элементу выходного слоя, а в обратном потоке эле- 
мент скрытого слоя будет получать сигналы ошибок от каждого элемента 
выходного слоя. Наличие двойного потока в сети иллюстрирует рис. 2.10. 

В процессе обучения каждый входной образеи будет иметь соответст- 
вующий целевой выходной образец, который должен получаться для 
данного входного. Например, в случае проблемы ХОК для входного об- 
разца [1.0 0.0] сеть должна давать на выходе 1.0, поэтому значение 1.0 бу- _ 
дет целевым выходным значением для данного входного образца. 
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> [ПРЯМОЙ ПОТОК 


зоввасние > Обратный ПОТОК 


Рис. 2.10. Закрашенный скрытый элемент посылает сигнал 
активности каждому выходному элементу, поэтому в обрат- 
ном потоке этот скрытый элемент получит сигналы ошибок 
от всех выходных элементов 


В общем, целью обучения является нахождение такого набора весо- 
вых коэффициентов сети, который обеспечивает решение данной кон- 
кретной проблемы. Перед началом обучения весовые коэффициенты ус- 
танавливаются равными малым случайным значениям — например, зна- 
чениям из диапазона oT -0.3 до 0.3. По причинам, которые уже 
обсуждались выше, будет использоваться нелинейная функция активно- 
сти. Можно, например, рассмотреть сигмоидальную функцию. Сигмоид 
дает значения только между 0 и 1, а поскольку данная функция никогда 
не достигает значений 0 и1, то, как правило, вместо 0 используют 0.1, 
а вместо 1.0 используют 0.9. Выбор конкретных значений 0.1 и 0.9 здесь 
не обязателен, поскольку обычно считается, что сеть научилась выпол- 
нять задачу, когда все выходные данные попадают в определенные до- 
пустимые рамки, содержащие целевые выходные значения. Например, 
если целевым выходным значением является значение 1.0, а допустимая 
погрешность равна 0.1, то любое выводимое значение между 0.9 и 1.0 бу- 
дет находиться в допустимых рамках. Процедура обучения по правилу 
обратного распространения ошибок выглядит следующим образом. 


для каждого входного вектора и связанного выходного вектора 
выполнять, пока not STOP 

STOP = TRUE 

для каждого входного вектора 
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выполнить прямой проход и найти реальный выход 

получить вектор ошибок путем сравнения реальных и целевых значений 

если реальный выход не попадает в допустимые рамки, установить STOP = FALSE 
выполнить обратный проход для вектора ошибок 

в результате обратного прохода определить величины изменения значений весов 
обновить значения весов 


Коротко говоря, сети предъявляется образец и вычисляется вектор 
ошибок, в результате чего выясняется, насколько следует изменить зна- 
чения весов; процесс повторяется для каждого образца. Полный цикл 
рассмотрения всех имеющихся образцов называется эпохой. Все образцы 
подаются на рассмотрение сети снова и снова, эпоха за эпохой, пока на 
протяжении одной эпохи все значения реального вывода для каждого об- 
разца не попадут в допустимые рамки. 


2.4.1. Немного теории 


Алгоритм обратного распространения ошибок опирается на обобще- 
ние дельта-правила. В этом разделе мы используем представление, при- 
веденное в [Rumelhart ef a/., 1986a]. Для более глубокого анализа алго- 
ритма обратитесь к [Rumelhart ef a/., 1986a] или [Werbos, 1990]. 

Представим производную ошибки в виде 


дЕ _ дЕ до; дпе!, 


Е ACE Wee EN (2.6) 
ди; 90; Onet; dw; 
и определим д; с помощью формулы = 
мы (2.7) 
дпе! ; 


Исходное дельта-правило из раздела 2.2.3 определяет 0; как д, =-9Е/9д0,, 
но наше новое определение оказывается согласованным с исходным, так как 
исходное дельта-правило предназначается для линейных элементов, где вы- 
ход оказывается равным вводу. Равенство (2.7) можно переписать в виде 
Вы 

bee j пей; , 


Поскольку E, = => ( j ~0,) ‚ имеем 


Обучение по алгоритму обратного распространения ошибок ‚ 53 


Для функции активности f (обычно это логистическая функция) выхо- 
дом является | 
0; = f (net я 


и поэтому для производной f’ получаем: 


do; ; 
= f (net ;) ; 


Onet j 


Таким образом, 
6; = (¢; -0,) f(ner;). 


Для нахождения комбинированного ввода используется обычное сумми- 
рование произведений: 


Поэтому 


Рассмотрев произведение полученных производных и возвращаясь 
к (2.6), получим 


=— = ~(t;-0;) f (nets); 


С учетом того, что вес должен изменяться в направлении, противопо- 
ложном тому, которое указывает производная поверхности ошибок, 
и с учетом нормы обучения п, изменение веса для элемента должно вы- 
числяться по формуле 

Ди’, = 16 ;x; - 


Указанная выше ошибка д ; соответствует ошибке выходного эле- 
мента, но ошибка скрытого элемента не связана с целевым выходным 
значением непосредственно. Поэтому весовые значения скрытого 
элемента следует скорректировать пропорционально его “вкладу” 
в величину ошибки следующего слоя (т.е. выходного слоя в случае 
сети с одним скрытым слоем). В сети с одним скрытым слоем при 
распространении сигналов ошибок в обратном направлении ошибка 
каждого выходного элемента вносит свой “вклад” в ошибку каждого 
элемента скрытого слоя. Этот “вклад” для элемента скрытого слоя за- 
висит от величины ошибки выходного элемента и весового коэффи- 
циента связи, соединяющей элементы. Другими словами, выходной 
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элемент с большей ошибкой делает больший “вклад” в ошибку того 
элемента скрытого слоя, который связан с данным выходным элемен-. 
том большим по величине весом. Для скрытого элемента ошибка вы- 
числяется по формуле 


6; = f (net ;) V5, Wy $ 
k 


где индекс К соответствует слою, посылающему ошибку обратно (для се- 
ти с одним скрытым слоем это будет выходной слой). 
Подходящей функцией активности является логистическая функция 


1 
1+ exp(—net ;) 


f (net ;) = 


Производная этой функции активности равна 
: exp(—net ,) 
(1 + exp(—net j )) 


1 1 
= 
1+ехр(—пе! ;) 1+exp(—net ;) 


2= f (net ;)|1 — f (net;) |. 


2.4.2. Алгоритм обратного распространения ошибок 


На первой стадии происходит инициализация весов малыми слу- 
чайными значениями — например, значениями из диапазона между - 
0.3 и +0.3. Обучение предполагается управляемым, поскольку с каж- 
дым входным образцом связывается целевой выходной образец. Обу- 
чение продолжается до тех пор, пока изменение усредненной квадра- 
тичной ошибки не окажется меньше некоторого допустимого значе- 
ния при переходе от одной эпохи к следующей. Например, 
допустимое значение 0.01 означает, что усредненная квадратичная 
ошибка соседних эпох не должна отличаться более, чем на +0.01. Ес- 
ли в процессе обучения наступает момент, когда ошибка в сети попа- 
дает в рамки допустимого изменения, говорят, что наблюдается схо- 
димость. Другим критерием окончания обучения’ можно считать на- 
ступление момента, когда выход для каждого учебного образца 
оказывается в рамках допустимого отклонения от соответствующего 
целевого выходного образца. 
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Чтобы уменьшить вероятность того, что изменения весов приобретут 
осциллирующий характер, вводится инерционный член ©, добавляемый 
в пропорции, соответствующей предыдушему изменению веса: 


Ди, (п+1) = 10,0, +@ Ди, (п). 


Таким образом, изменение веса на шаге п+1 оказывается зависящим от 
изменения веса на шаге п. Алгоритм обратного распространения в целом 
представлен на рис. 2.11. 

Ниже будут рассмотрены самые простые примеры соответствующих 
вычислений, но если представленный алгоритм покажется вам слишком 
сложным и непонятным, то в разделе 2.7 вы сможете найти пример под- 
робных вычислений для конкретной сети. Эта сеть будет иметь два скры- 
тых слоя, и вы сможете проследить за выкладками, что должно помочь 
вам разобраться в соответствующих вычислениях. 


Пример 2.3 


Представьте полностью прямой и обратный проходы в сети с прямой 
связью, использующей алгоритм обратного распространения ошибок, 
для входного образца [0.1 0.9] и целевого выходного значения 0.9 
в предположении, что сеть имеет архитектуру 2-2-1 (т.е. два входных, 
два скрытых один выходной элемент) с весовыми коэффициентами 


0.1 0.1 
асы 
OA 93 


для первого слоя и 
0.2 
0.2 
0.3 


, 


для второго слоя. 


Решение 2.3 


Выход для входных элементов совпадает с ввВодимыми значениями. 
Первые строки обеих весовых матриц определяют элементы сме- 
щения соответствующего слоя, которые, как вы помните, связыва- 
ются с элементами, значения активности которых равны 1. Эле- 
менты получают номера {0, 1,2} для входного слоя, {3,4,5} — для 
скрытого слоя и {6} — для выходного слоя. При этом элементы 
с номерами 0 и 3 оказываются элементами смещения для входного 
_и скрытого слоев соответственно. 
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Шаг 1. Прочитать первый входной образец и соответствующий ему 


выходной образец СОМУЕКСЕ = ТКОЕ 


Прочитать следующий входной 
образец и соответствующий ему 
выходной образец 


Шаг 2. Для входного слоя установить совокупный ввод 
каждого элемента равным соответствующему элементу 
входного вектора. Значение вывода каждого элемента 
установить равным вводу 


Шаг 3. Для элементов первого скрытого слоя вычислить совокупный ввод 
И ВЫВОД 
- 1 
net = и № > и iy [4] SS ee ла © ОБЕ a 
т 2. ty a Fy exp(—net;) | 


| Повторить war 3 для всех последующих скрытых слоев | 


Шаг 4. Для элементов выходного слоя вычислить совокупный ввод и вывод 


1 
sae"? exp(—net;) 


п ‘ 
net; = Wo + > хи, 0; 
ize] 


Шаг 5. Попадает ли разность между целевым выходным образцом и реальным 
выводом сети в допустимые рамки? ЕСЛИ Нет ТО СОМУЕКСЕ = ТКОЕ 
Шаг 6. Для каждого выходного элемента вычислить его ошибку 
6; = (1 — 0j)o;(1 — 0) 


War 7. Для последнего скрытого слоя вычислить ошибку каждого элемента 
5x = 0(1 — 0) У бык, 
k 


Повторить шаг 7 для всех остальных скрытых слоев 


Шаг 8. Для всех слоев обновить значения весов каждого элемента 
Аи’; (п + 1) = 7(6;0;) + aAw; (п) 


Последний образец? 


СОМУЕКСЕ = = ТКОЕ 


Рис. 2.11. Алгоритм обратного распространения ошибок. Индекс k соответствует преды- 
дущему слою при обратном движении в сети. Используемые здесь обозначения подроб- 
нее описаны в приложении А 
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58 


net, = (1.0x0.1) + (0.1х-0.2) + (0.90.1) 
= 0.170, 
ee et eee 
1+ехр(-0.17) 
= 0.542, 
net, = (1.0х0.1) + (0.1х-0.1) + (0.9х0.3) 
= 0.360, 
г 1 
_ 1+ехр(-0.36) 
= 0.589. 


05 


Точно так же при переходе от скрытого к выходному слою получим: 
nets = (1.0х0.2) + (0.542х0.2) + (0.589 x 0.3) 
= 0.485, 
O, = 0.619. 


Ошибка выходного элемента равна 
дб = (0.9-0.619)х0.619х(1-0.619) 
= 0.066. 


Ошибки скрытых элементов равны 
д; = 0.589х (1.0-0.589)х (0.066х0.3) 
= 0.005, 
бд = 0.542х (1.0-0.542)х (0.066х0.2) 
= 0.003. 
Обратите внимание на то, что-ошибки скрытых элементов исполь- 
зуются при вычислении значений коррекции для первого слоя весов. 
Для элемента смещения ошибка не вычисляется, так как с элемен- 
том смещения скрытого слоя не связан никакой элемент из первого 
слоя. Норма обучения для этого примера была выбрана равной 0.25. 
Для первого образца нет необходимости добавлять инерционный 
член, поскольку для этого образца нет изменения предыдущего веса: 


Aws 6 = 0.25х0.066х0.589 
= 0.01. 


Новым весом является 
0.3 +0.01= 0.31. 
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Далее получаем 
Aw, 6 == 0.25 x 0.066 x 0.542 


= 0.009 
И 
0.2 + 0.009 = 0.209. 
Наконец, 
Ди’; ‹ = 0.25х0.066х1.0 
= 0.017 
и 


0.2 + 0.017 =0.217. 


Читателю предлагается вычислить новые значения весов для первого 
слоя в качестве упражнения. 


Пример 2.4 


На рис. 2.12 показаны скрытый и выходной слои сети с прямой связью. 
Вычислите ошибку для скрытого элемента U при условии, что значе- 
ние его активности для обрабатываемого сетью образца равно 0.64. 


(09 


Элемент Ч — 
\ 30% 0.23 0.20 
O49 | 
Реальный выход of sti Плановый выход 


Рис. 2.12. Простая сеть. Входной слой не показан 


Решение 2.4 


Сначала вычисляются ошибки для выходных элементов: 
бъыход 1 = (0.58 — 0.87)х0.87х (1- 0.87) 
= - 0.033, 


дъыход_2 = (0.20-0.23)x0.23x (1- 0.23) 
= -0.005. 
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Теперь ошибки распространяются обратно к элементу Ц: 
dy = 0.64х(1-0.64)х[(-0.033х-0.45) + (-0.005 x 0.20)] 
= 0.003. 


2.4.3. Практические рекомендации 


В этом разделе приводится ряд практических рекомендаций по исполь- 
зованию сетей, в которых применяется алгоритм обратного распростране- 
ния ошибок, но читателю рекомендуется обратить внимание также на раз- 
дел 6.4, где данный вопрос обсуждается подробнее. Успех применения 
нейронной сети обычно требует проведения множества экспериментов. 
Есть целый ряд параметров, от правильного выбора которых зависит, на- 
сколько быстро будет найдено решение. Для сетей с прямой связью число 
скрытых элементов и слоев может быть различным. Несомненно, важным 
фактором является выбор учебных данных, и ему должно уделяться боль- 
шое внимание, чтобы быть уверенным, что сеть будет обладать хорошими 
свойствами обобщения на данных, которые не предлагались ей в ходе обу- 
чения. Можно наблюдать успешную работу сети при использовании учеб- 
ных данных и впоследствии обнаружить, что сеть не может правильно обра- 
ботать новые данные. Для каждого нового типа задач нет универсального 
способа нахождения решения. Иногда решить проблему не удается, но не- 
удача в попытке найти решение не означает, что задачу невозможно решить 
с помошью нейронного подхода. Хотя в нейронных сетях и используется ме- 
тод “попыток и оценок результата”, значение хорошего понимания решае- 
мой проблемы и принципов работы нейронных сетей трудно переоценить. 

Теория говорит о том, что сеть с одним скрытым слоем может пред- 
ставить любое непрерывное отображение вида 


у= Л(х). 


Поскольку в форме такого отображения можно представить многие ре- 
альные проблемы, есть ли вообще необходимость использовать несколь- 
ко скрытых слоев? Но иногда оказывается, что сеть с двумя скрытыми 
слоями обучить проще, а вариант сети с прямой связью, называемый ав- 
тоассоциативной сетью, для решения задачи сжатия данных может иметь 
множество скрытых слоев (см. главу 4). 

Алгоритм обучения в том виде, как он был представлен, использует 
пошаговое обновление набора весовых значений, что означает изменение 
весовых коэффициентов после рассмотрения каждого образца. Иногда, 
чтобы быстрее обучить сеть, оказывается более выгодным использовать 
пакетное обновление, когда ошибки для каждого элемента накапливают- 
ся в течение целой эпохи, и только после этого происходит корректиров- 


60 Глава 2. Классификация образцов 


ка весов этого элемента. Может оказаться выгодным использовать слу- 
чайный порядок представления сетью вм, образцов от эпохи к эпо- 
хе — в таком случае потребуется пошаговое обновление весовых значе- 
ний. Обычно лучший подход обнаруживается экспериментально. 


Обобщение 


Если сеть порождает правильный ВЫВОД ДЛЯ большинства вводимых 
образцов из набора тестовых данных, говорят, что сеть обладает хороши- 
ми свойствами обобщения. Предполагается, что набор тестовых данных о 
в процессе обучения не использовался. 

Если сеть хорошо обучена строить гладкое нелинейное отображение, 
ее возможности можно интерполировать на новые образцы, которые по- 
добны, но не повторяют в точности те образцы, которые использовались 
в процессе обучения. Негладкое отображение возникает тогда, когда сеть 
перетренирована. В такой ситуации сеть скорее будет подобна памяти, на- 
ходя подходящие выходные данные среди множества учебных образцов. 

Качество обобщения сети зависит от набора учебных данных и архи- 
тектуры сети. Набор учебных данных должен быть характерным для ре- 
шаемой проблемы, но важным также является и число скрытых элемен- 
тов. Если скрытых элементов больше, чем требуется для обучения нуж- 
ному отношению ввода-вывода, будет больше весовых коэффициентов, 
чем это необходимо, и, если процесс обучения продолжается слишком 
долго, в результате может наблюдаться слишком близкое отслеживание 
данных. Иногда в экспериментах с сетями различной архитектуры и про- 
должительностью времени обучения в качестве временного тестового на- 
бора используют подмножество учебных данных. Главный набор тесто- 
вых данных при этом все равно резервируется для основного тестирова- 
ния способности обобщения соответствующей сети. 

Применение нейронных сетей представляет собой эксперименталь- 
ный подход в прикладной науке. При этом для разработки сетей имеются 
некоторые общие рекомендации. В книге Хейкина [Haykin, 1994] ис- 
пользуется результат из работы Баума и Хасслера [Baum, Haussler, 1989], 
дающий общие рекомендации относительно размеров набора учебных 
данных. Рекомендуется выполнение следующего неравенства: 


Hig Ee 
E 


) 


где № обозначает число учебных образцов, W — число весовых коэффи- 
циентов в сети, а € — долю ошибок, допустимую в ходе тестирования. 
Так, при допустимости 10% ошибок число учебных образцов должно 
быть в 10 раз больше числа имеющихся в сети весовых коэффициентов. 
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2.5. Использование сети с обратным 
распространением ошибок 


В этой главе мы рассмотрим тип проблем, которые могут быть ин- 
терпретированы, как проблемы отображения вводимого образца в один 
из нескольких имеющихся Классов. Для проблемы ХОК число классов 
равно двум, поэтому для Е ения этой проблемы достаточно одного 
выходного элемента с двумя возможными состояниями (т.е. значение, 
меньшее 0.1, соответствуе в ВЫКЛЮЧЕНО, а значение, 
большее 0.9, соответствует состоянию ВКЛЮЧЕНО). Общим подходом 
является связывание с каждым классом своего выходного элемента. Ес- 
ли вводимый образец берется, скажем, из класса С, , то выходной эле- 
мент И, должен быть включен, в TO время как все остальные выходные 


элементы — выключены. 


2.5.1. Классификация чисел 


Рассмотрим задачу классификации чисел от 0 до 9. В данном случае 
имеется 10 классов, поэтому в качестве целевого выходного вектора 
можно использовать вектор, состоящий из 10 элементов. Например, 
в качестве целевого вектора для числа 2 можно выбрать [0010000000], 
означающий, что третий выходной элемент должен быть включен, а и 
все остальные — выключены. 

В рассматриваемом здесь случае целевые выходные значения для чи- 
сел от 1 до 9 будут представляться векторами из 9 элементов, а числу 0 
будет соответствовать вектор, все биты которого выключены. Например, 
если сеть решит, что ей представлено число 2, то на ее выходе второй 
выходной элемент окажется равным 1, а все остальные будут равны 0. 
Числа, которые должны быть выучены сетью, показаны на рис. 2.13. Ка- 
ждое число представляется сеткой размером 9х7, где серым пикселям 
соответствуст 0. а черным — 1. 

Для моделирования выбирается сеть типа 63-6-9: 9х7 входных элементов 
(по одному на каждый пиксель), шесть скрытых элементов и девять выход- 
ных элементов для целевых выходных векторов. Соответствующие пикселям 
значения отображаются во входной слой так, как показано на рис. 2.14. 

Обучение сети продолжалось в течение 600 эпох, при этом норма обу- 
чения выбиралась равной 0.3, а коэффициент инерции был равен 0.7. 
Выходной элемент переводился во зключенное состояние, если значение 
активности оказывалось больше 0.’ и в выключенное состояние, если 
значение активности оказывалось мены 0.1., 
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Рис. 2.13. Учебные данные 


Обучение сети завершилось успешно. Затем сеть подверглась тестирова- 
нию на данных, представленных на рис. 2.15. Каждое из чисел имело не ме- 
нее одного пропущенного бита. Все тестовые числа были идентифицированы 
правильно, кроме числа 8, когда активность шестого выходного элемента 
оказалась равной значению 0.53, а восьмого — значению 0.41. Сеть не смогла 
решить, каким числом является восьмой образец — числом 6 или 8 — и по- 
этому не смогла отдать предпочтение ни одной из этих возможностей. 


2.5.2. Классификация символов 


Эта задача подобна предыдущей. Целью является обучение сети 
с прямой связью распознаванию символов А, В, С, О. Учебные символы 
были взяты из трех разных шрифтов. Для тестирования сети использо- 
вался четвертый тип шрифта. Все эти символы показаны на рис. 2.16. 
Они были построены по сетке размером 16x 16 пикселей, поэтому для 
сети потребовалось 256 входных элементов. Число выходных элементов 
было равно четырем, по одному для каждого класса. 

Подобная сеть будет успешно обучаться и правильно обобщать дан- 
ные при разной архитектуре. Она легко обучается при наличии одного 
скрытого слоя из восьми элементов и правильно работает на указанном 
тестовом наборе символов. Такая сеть почти всегда успешно проходит 
обучение на указанных учебных данных. Однако число неудачных по- 
пыток тестирования оказывается примерно равным числу удачных, ес- 
ли использовать другие тестовые наборы. Неудачи обычно связаны 
с одним тестовым символом, который сеть классифицирует некоррект- 
но. Сеть имеет достаточно ресурсов, чтобы выполнить задание с восемью 
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Рис. 2.14. Сетка значений отображается BO входной слой с помощью ее представления 
в виде длинной строки битов, равных 0 или 1. Отображение значений битов начинается от 
верхнего левого угла сетки вниз до конца первого столбца и повторяется для каждого 
следующего столбца по порядку | 


или меньшим числом скрытых элементов. Как и ожидается, способность 
к обобщению ухудшается с ростом числа скрытых элементов, но иногда 
обобщение оказывается весьма хорошим для 100 или даже большего чис- 
ла скрытых элементов. 
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Se ge te SE = = Sse ext 


Рис. 2.15. Искаженные помехами тестовые данные 


ABCD 
ABCD 


ABCD 
ABCD 


Рис. 2.16. Первые три ряда символов образуют 
учебный набор, а символы нижнего ряда — 
тестовый 
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2.5.3. Прогнозирование погоды 


Чтобы заставить нейронную сеть предсказывать погоду с любой степе- 
нью надежности, вероятно, потребуется выполнить грандиозную исследо- 
вательскую работу. Это очень сложная проблема, и ученые потратили не- 
мало лет на разработку сложнейших компьютерных программ, помогаю- 
щих строить прогнозы. Однако в качестве упражнения мы хотели бы 
обсудить то, каким образом можно было бы подойти к вопросу разработки 
системы предсказания погоды на завтра, основывающейся на информации о 
погоде сегодня. Такую систему можно назвать “наивным предсказанием”. 

В табл. 2.3 представлены некоторые данные, полученные на одной из 
британских метеорологических станций по пяти признакам на протяже- 
нии 10 дней. Можно попытаться решить задачу прогнозирования, пре- 
доставляя сети информацию о погоде первого дня и считая целевыми 
выходными данными информацию о погоде второго дня. Следующим 
учебным образцом должны быть данные о погоде второго дня, а соответ- 
ствующими целевыми выходными данными — данные третьего дня и т.д. 
Сеть должна иметь пять входных и пять выходных элементов. Можно 
начать с большого числа скрытых элементов (например, с 30), в даль- 
нейшем пытаясь уменьшить их число. Конечно, хотелось бы потребовать 
существенно больше данных, чем за 19-дневный период. Имея больше 
данных, можно было бы сформировать как учебный, так и тестовый на- 
боры данных. Данные следовало бы предварительно обработать, чтобы 
все значения оказались в рамках допустимых значений активности эле- 
ментов (для сигмоидальной функции это диапазон от 0.1 до 0.9). Данные 
в сыром виде, без предварительной обработки, оказываются неподходя- 
щими для использования. Такие данные не только не попадают в область 
допустимых значений функции активности, но наблюдается также очень 
большой разброс значений между признаками. Например, давление ха- 
рактеризуется значениями порядка 1000, тогда как характеристики дождя 
выражаются в значениях, меньших 10. Мы бы не хотели, чтобы данные, 
касающиеся давления, оказались в сети более значимыми, чем данные, 
касающиеся уровня осадков, поэтому и требуется предварительная обра- 
ботка данных. Предварительная обработка данных обсуждается в главе 6. 

Конечно, нельзя быть уверенным, что мы сможем разработать систе- 
му прогнозирования погоды с помошью указанного выше простого под- 
хода, но в такой попытке и вреда не будет. По крайней мере, мы можем 
обнаружить, что неплохой краткосрочный прогноз (Т.е. прогноз Ha зав- 
тра) сделать вполне возможно. На самом деле немало людей пытаются 
решить эту задачу. Знание особенностей проблемы прогнозирования по- 


66 Глава 2. Классификация образцов 


Таблица 2.3. Погодные данные 


Температура (`С) Осадки Давление Солнце 

День минимум максимум (mM) (мбар) (часы) 
01 -1 4.8 0.7 1011 3.8 
02 Л 2.8 0 1024 5.4 

03 $9 3.6 0 1032 4.8 

04 6 6.6 2.8 1026.5 0 

05 3.5 4.7 _ 3 1019.5 0 

06 is 7.9 0 1018.5 5.2 
07 H14 9.5 0.2 1034.5 0 

08 0.8 10.4 1.4 1028.5 0.2 

09 1.8 10.4 0.4 1028.5 0 

10 4 12 2 1020.5 0 


годы помогло бы нам формализовать проблему и выделить наиболее по- 
лезные данные. Например, вполне разумным кажется предположение 
о том, что лучший прогноз можно получить на основе непрерывного мо- 
ниторинга изменения данных в течение всего дня, а не на суммарных 
данных об уровне осадков, максимуме температуры и т.д. 

Задача построения прогноза погоды типична для нейронных сетей. В ней 
имеется информация, которую мы считаем характерной для рассматриваемой 
проблемы, но трудность состоит в том, что не ясно, как следует использовать 
данные и как выбрать подходяшую архитектуру сети, с помошью которой 
должна эта проблема решаться. Здесь следует начинать с экспериментальной 
проверки идей, которые могли бы в данном случае оказаться работоспособ- 
ными. Через эксперимент с данными приходит лучшее понимание проблемы 
и возникают новые идеи, открывающие новые возможности для ее решения. 


2.6. Сети с радиальными базисными функциями 


В этом разделе мы рассмотрим другой тип модели сети, которую тоже 
можно использовать для классификации образцов и которая называется 
сетью с радиальными базисными функциями. 

Сеть с радиальными базисными функциями в наиболее простой форме 
представляет собой сеть с тремя слоями: обычным входным слоем, выпол- 
няющим распределение данных образца для первого слоя весов, скрытым 
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слоем и выходным слоем. Отображение от входного слоя к скрытому слою 
является нелинейным, а отображение скрытого слоя в выходной — линейно. 
Обычно (но не всегда) число скрытых элементов больше числа входных эле- 
ментов. Идея здесь в том, что если нелинейную проблему разместить в про- 
странстве высокой размерности некоторым нелинейным образом, то вероят- 
ность того, что она будет линейно отделимой, должна оказаться выше. 

Рассмотрим отображение первого слоя. С каждым скрытым элемен- 
том связывается некоторая функция ф. Каждая из этих функций берет 
комбинированный ввод и порождает значение активности, подаваемое на 
выход. Совокупность значений активности всех скрытых элементов оп- 
ределяет вектор, на который отображается входной вектор: 


ф(х) = [P(x,), ф(х>), #23 Q(X )] 5) 


где М обозначает число скрытых элементов, а X — входной вектор. 

Связи элемента скрытого слоя определяют центр радиальной функ- 
ции для данного скрытого элемента. Ввод для каждого элемента выбира- 
ется равным евклидовой норме: 


net; = |х-\, || 


с ‚У 
Ус; a wii)” ’ 
i=] 


где п обозначает число входных элементов. 
Для скрытых элементов используют самые разные функции активно- 
сти. Брумхед и Лауэ [Broomhead, Lowe, 1988] использовали функцию Га- 


усса ф(г) = exp[-r7] или функцию g(r) = Ус? ir? 


Пример 2.5 


Сеть типа 2-2-] с радиальными базисными функциями используется 
для решения проблемы ХОК. Первый слой весов задан матрицей 


10 
10 


Для каждого вводимого. образца ХОК вычислите значения активно- 
сти для всех скрытых элементов, если функция активности имеет 


вид Q(net) = ехр[-пе!?], где net является евклидовой нормой. 


Решение 2.5 
Для образца (0, 1) и первого скрытого элемента получаем: 


ф! = exp[-[(0-1)? + (1-1)7]] =ехр[-1 = 0.368 . 
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Для образца (0, 1) и второго скрытого элемента получаем: 
> = exp[-[(0- 0)? +(1-0)?]] = ехр[-1 = 0.368. 


Весь набор значений активности выглядит следующим образом. 


Ввод Ф ф> 
(0,1) 0.368 0.368 
(1.0) 0.368 0.368 
(0,0) 0.135 1 
(1.1) 1 0.135 


Если нанести значения активности невидимых элементов на 
плоскость, будет видно, что теперь образцы оказываются линей- 
но отделимыми. 


Существует несколько методов определения весовых коэффициентов. 
Первый слой весов перед началом обучения может быть задан в результате 
случайного выбора центров функций каждого скрытого элемента из набора 
учебных данных. Первый слой весов обычно находится с использованием 
техники обучения без управления (см. главу 3). Как только найден первый 
слой весов, второй слой можно определить непосредственно, а если это не 
удается, то с помощью линейного алгоритма управляемого обучения. 

Одну и ту же проблему можно решить как с помошью сети с радиаль- 
ными базисными функциями, так и с помощью многослойной сети с об- 
ратным распространением ошибок. Эти сети представляют собой вычисли- 
тельные схемы довольно общего вида, применимые при решении очень 
широкого круга задач. Давайте рассмотрим пример использования сети 
с радиальными базисными функциями для решения задачи аппроксимации 
кривой. Кривая, которую нужно аппроксимировать, задается функцией 


f (x) =0.5х+ 2x" ~x" : 


а ее график показан Ha рис. 2.17. 
Эта кривая будет аппроксимироваться с помощью взвешенных сумм 


функций Гаусса, имеющих вид 
1 2 
net ; =exp| -—(с-х)“ |, 
j | = ) | 


где с задает центр функции. Пример кривой Гаусса, имеющей центр 
в нуле, показан на рис. 2.18. От значения константы с зависит ширина 
колокола кривой. | 


“a 
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Рис. 2.17. График f(x) = 0.5x + 2х2 - ® 


Ora кривая будет аппроксимироваться с помошью взвешенных сумм 
функций Гаусса, имеющих вид 


1 2 
net , =exp| -—(с-х) 
< ! + 20 
где с задает центр функции. Пример кривой Гаусса, имеющей центр 
в нуле, показан на рис. 2.18. От значения константы с зависит ширина 


колокола кривой. 


a7 cad | ong 2 


Рис. 2.18. Функция Гаусса 


Число базисных функций выбирается произвольным образом. Были 
выбраны девять функций с центрами в точках {-0.8, —0.6, —0.4, -0.2, 0, 0.2, 
0.4, 0.6, 0.8}. Ширина функций была выбрана равной 0.5. Кривая аппрок- 
симируется взвешенной суммой базисных функций. Эти функции Гаусса 
представляют скрытый слой сети, поэтому скрытый слой состоит из де- 
вяти элементов. Первый слой весов, соответствующий связям, идущим от 
единственного входного элемента, представляет собой набор центров вы- 
бранных функций. Второй слой весов находится с помошью правила 
обучения Видроу-Хоффа, представленного в главе 1: для выхода о 
и целевого выхода ¢ ошибка 6 определяется формулой 


d=t-o. 
Суммарный сигнал, поступающий к выходному элементу, обозначен net. 


По закону обучения Видроу-Хоффа (дельта-правило) вносимая коррек- 
ция должна быть следующей: 


Aw = nonet . 


Архитектура сети показана на рис. 2.19. Норма обучения была выбра- 
на равной 0.1. Чтобы найти второй слой весов, был сгенерирован 21 
учебный образец путем пропускания некоторого числа (из диапазона ме- 
жду -1 и +1) через первый слой весов. Значения активности скрытого 
слоя затем давали вектор с девятью элементами для каждой учебной точ- 
ки. Полученные в результате 21 вектор формировали набор учебных об- 
разцов для линейной сети, а соответствующие целевые выходные данные 
были значениями оригинальной кривой. Аппроксимация, построенная 
сетью; вместе с графиком оригинальной кривой показана на рис. 2.20. 

На практике необходимо определить весовые значения сети и провес- 
ти тестирование, в ходе которого проверяется качество работы сети. По- 
сле этого можно скорректировать сначала первый слой весов, а затем — 
второй, чтобы попытаться улучшить качество. Процесс экспериментиро- 
вания с параметрами сети продолжается до тех пор, пока качество работы 
сети не станет приемлемым. 


2.7. Резюме 


В этой главе мы говорили об управляемом обучении, при котором 
рассматривается отображение входного образца в целевой выходной об- 
разец. Для управляемого обучения необходимо иметь: 


» Данные, имеющие известную классификацию; 


e Данные в объеме, достаточном для представления всех аспектов 
решаемой проблемы; 
e данные в объеме, достаточном для проведения тестирования. 


Резюме _ 71 


Первый слой весов Второй слой представляет 

задается центрами линейную сумму выходных 

кривых Гаусса данных скрытого слоя. 
Значения этих весов находятся 


по правилу Видроу-Хоффа 


Рис. 2.19. Сеть с радиальными базисными функциями, обученная 
представлять кривую, как показано на рис. 2.17 


Наборы тестовых и учебных данных должны быть разными (чтобы тесто- 
вые данные не использовались в ходе обучения). Знание решения задачи 
отражается в наборе весовых значений сети. 

Очень часто используется алгоритм обратного распространения ошибок. 


e В этом алгоритме обучение происходит путем корректировки ве- 
совых коэффициентов на основе применения обобщенного дель- 
та-правила, когда осуществляется попытка минимизировать квад- 
ратичную ошибку, соответствующую отклонению реального выво- 
да сети от требуемого вывода. 


e В ходе обучения данные циклически обрабатываются снова и сно- 
ва до тех пор, пока ошибка не станет достаточно малой для того, 
чтобы задача считалась решенной. Но даже если квадратичная 
ошибка оказывается малой по величине, важно проверить, чтобы 
все учебные образцы классифицировались правильно. 
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—— Kpweaa 


----* Аппроксимация 


Рис. 2.20. Аппроксимация кривой с помощью сети с‹радиальными базисными функциями, 
представленной+на рис. 2.19 


e После завершения обучения значения весовых коэффициентов 
в сети фиксируются, и сеть может использоваться для классифи- 
кации новых неизвестных ей образцов. 


e Теоретически для моделирования многих проблем может быть дос- 
таточно одного скрытого слоя элементов, но на практике несколько 
скрытых слоев могут дать лучшее качество выполнения задачи. 


e Сети с обратным распространением ошибок могут требовать дли- 
тельного процесса обучения. | 


e Обобщение является мерой качества работы сети на данных, не 
представленных ей в ходе обучения. Число скрытых элементов 
и длительность обучения могут оказывать существенное влияние 
на способности обобщения сети. 


Сеть с радиальными базисными функциями представляет собой дру- 
гой тип сети, используемой для классификации (или моделирования 
функций общего вида). 


e Для нее требуются данные в объеме, достаточном для представле- 
ния всех аспектов решаемой проблемы. 


e Для нее требуются данные в объеме, достаточном для проведе- 
ния тестирования. Наборы тестовых и учебных данных должны 
быть разными (Т.е. тестовые данные не должны использоваться 
в ходе обучения). 
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e (Сеть решает нелинейную проблему путем размещения вводимых 
образцов в пространстве более высокой размерности некоторым 
нелинейным образом. 


e Выбор функции активности для скрытых элементов должен быть 
сделан до начала обучения. Типичным является использование 
функции Гаусса. 


e Центры функций Гаусса определяют первый слой весов. Они могут 
быть определены с помошью метода кластеризации (см. главу 3). 


e Второй слой весов сети может быть определен с использованием 
линейного правила управляемого обучения. 


Главная тема этой главы — использование сети с обратным распро- 
странением ошибок, поэтому давайте рассмотрим еше один’ пример, 
представив его в виде полной диаграммы прямого и обратного проходов 
в сети. Вводимыми данными будут (0.1, 0.9), норма обучения равна 0.8, 


_ а коэффициент инерции равен 0. Сеть имеет архитектуру 2-2-2-1, а Beco- 


вые значения задаются матрицами 
д.4 3: «а “2 
eS Te Ee et Ей 
“so ‚= Me: 1 


где каждая матрица представляет свой слой весовых значений. На 
рис. 2.22 показан прямой поток данных в сети с указанными суммарным 
вводом и суммарным, выводом каждого элемента. Обратный поток оши- 
бок показывает взвешенные ошибки, получаемые элементами, и общую 
ошибку, вычисляемую по формуле, представленной на рис. 2.21. На 
рис. 2.23 представлены обновленные весовые значения. 


1 
| + exp(—net;) 


n 
net; = Wo + > XiWij 


i=| 


o(1 mg 0;) + OKWkj 
k 


Прямой проход Обратный проход 


Рис. 2.21. Числа перед элементами и после них на рис. 2.22 соответ- 
ствуют вычислениям по формулам, заключенным здесь в рамки 
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Целевым является значение 0.9, поэтому 
ошибка для выходного элемента равна 
(0.900 — 0.288) х 0.288 

x (1 — 0.288) = 0.125 


Прямой проход 


0.288 
4 пенье 
ii ~0.906 2 
3 1 


Ошибка предыдущего 
слоя, умноженная 
на весовые значения 


3 


Фактическая 
ошибка 
0.122(1 — 0.122) х 0.375 


Вывод 
элемента 


Ввод 
элемента 


Рис. 2.22. Пример прямого и обратного проходов в сети типа 2-2-2-1 с прямой связью. 
Данные ввода, вывода и значения ошибок показаны в рамках (см. рис. 2.21) 


Резюме vO 


прыть 


—1.900 = —2 + (0.8 x 0.125) x 1 


3.012 =3+ (0.8 x 0.125) х 0.122. 1.073 =1+ (0.8 x 0.125) x 0.728 


р) 


3.032 = 3+ (0.8 x 0.04) x 1 | = 1,98 = -2+ (0.8 x 0.025) x 1 
1.984 = —2 + (0.8 x 0.04) x 0.5 2.019 = 2 + (0.8 x 0.025) x 0.993 
2.010 =2+ (0.8 x 0.025) х0.5 —— 3.968 =—4+(0.8 x 0.04) x 0.993 


в Xl 


ь ; 


1.994 =2 + (0.8 x —0.007) x 1 1.999 =2 + (0.8 x —0.001) x 1 
—2.001 = —2 + (0.8 x —0.007) x 0.1 2.999 =3+ (0.8 x —0.001) x 0.9 
2.999 =3+ (0.8 x —0.001) x 0.1 — 2.005 = —2 + (0.8 x —0.007) x 0.9 
1 / . м 


Рис. 2.23. Новые весовые значения, вычисленные NO значениям ошибок, показанных 
на рис. 2.22 
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2.8. Дополнительная литература 


Оригинальное представление алгоритма обратного распространения 
из [Rumelhart et а/., 1986a] до сих пор остается достойным изучения. Бо- 
лее поздняя статья [Werbos, 1990] также. разъясняет теорию, на которую 
опирается данный алгоритм и его вариация для случая рекуррентных свя- 
зей (см. главу 5). По поводу сетей с радиальными базисными функциями 
следует ознакомиться со статьей [Broomhead, Lowe, 1988] и книгой [Haykin, 
1994], которая является достаточно подробным введением в предмет. 

Существует много вариантов алгоритма обратного распространения, 
ставящих целью ускорение обучения и помогающих сети избежать ло- 
кальных минимумов, которые могут не позволить успешно завершить’ 
обучение. Некоторые из этих вопросов обсуждаются в главе 6, но любо- 
знательному читателю мы снова рекомендуем книгу [Haykin, 1994], 
а также [Masters, 1995], где предлагается практическое решение этих про- 
блем с использованием программ на языке С++. 


2.9. Упражнения 


1. На рис. 2.24 показана сеть с обратным распространением ошибок во 
время обработки учебного вектора [1.0 0.9 0.9], для которого целевым 
выходным вектором является [0.1 0.9 0.1]. Пусть выходом элемента В. 
является значение 0.6, а выходом элемента С — значение 0.8. Предпо- 
ложим, что функцией активности является сигмоид. 

(а) Вычислите фактический выходной вектор. 
(6) Вычислите значения ошибок для каждого выходного элемента. 
(в) Вычислите значения ошибок для каждого скрытого элемента. 


Рис. 2.24. Сеть типа 3-2-3, в которой нет элементов смещения 
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(г) Вычислите изменения весовых значений для связей, идущих от 
элемента А. Норма обучения предполагается равной 0.25. 


Повторите вычисления упражнения | для целевого выходного вектора 
[0.1 0.9 0.9]. 

Предположим, что точки {(-1, 1), (1, -1), (1, -1)} принадлежат классу А, 
а точки {(-2, —2), (1, 1), (2, 2), (4, 1)} — классу В. 


(а) Докажите, что эти классы не являются линейно отделимыми. 
(6) Предположив, что выход элементов сети задается условием 


|) если комбинированный ввод > 0, 
выход = к 
0, если комбинированный ввод < 0, 


покажите, что определенный ниже матрицей Wy, первый слой ве- 
совых значений в сети с тремя слоями преобразует проблему 
в линейную (первая строка матрицы У\; определяет весовые ко- 
эффициенты смещения): 


1 -6 
W, = —2 —2 
—1 -3 


(в) Определите значения второго слоя весов так, чтобы сеть правиль- 
но классифицировала указанные выше образцы. Предположите, 
что сеть имеет один выходной элемент. 


Точки {(4,-1), (8, -—2), (1,1), (3, 6)} принадлежат классу A, а точки {(- 
8, 4), (-2, -3), (-1, -1), (2, -9)} — классу В. Постройте минимальную сеть, 
правильно классифицирующую эти точки. 


Покажите, что сеть с радиальными базисными функциями из приме- 
ра 2.5 может решить проблему ХОБ, если значения первого слоя весов 
установить равными 

0-1 

1201. 


Постройте второй слой весов для решения упражнения 5. Предполо- 
жите наличие смещения для выходного элемента. | 


Определите сеть с радиальными базисными функциями, решающую 

проблему XOR, в предположении, что функции активности скрытых 
9 9 

элементов имеют вид ф(г) =? +2. 


Повторите вычисления прямого и обратного проходов в сети, пока- 
занной на рис. 2.22, и найдите новые весовые значения для входного 
образца [0.9 0.9] и целевого выходного значения [0.1]. 
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9. Постройте подходящую сеть с прямой связью, моделирующую опера- 
цию логического AND. 


10. Для сетей с обратным: распространением ошибок другой часто ис- 
пользуемой функцией активности является двухполюсный сигмоид. 
Эта функция имеет область значений (-1, 1) и определяется формулой 


f (x) ыы —1 


1+ exp(—x) 


Производную этой функции можно выразить в виде 


; 1 
f(x) = ane f(x)J— Л]. 


Предложите правило коррекции ошибок для выходных и скрытых 
элементов. 


11. Постройте график производной функции-сигмоида и объясните, как 
связаны относительная величина обновления веса и значение актив- 
ности элемента. 

12. На рис. 2.25 показаны два класса, А и В, образующие треугольные об- 
ласти. Третий класс определяется как пересечение классов А и В. 
Предложите архитектуру сети с обратным распространением ошибок, 
решающей такую задачу классификации. Объясните, почему вы вы- 
брали именно такую архитектуру. 


рана 


Третий класс 


Рис. 2.25. Две треугольные области и их пересечение 


13. Объясните, почему в сети с обратным распространением ошибок весо- 
вые коэффициенты инициализируются как положительными, так и от- 
рицательными случайными значениями, а не только положительными. 


14. Подумайте о том, чем отличается сеть с обратным распространением 
ошибок, в которой в качестве функций активности используются 
функции Гаусса, от сети с радиальными базисными функциями. 
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Глава 3 


Кластеризация образцов 


Задача. Описание обучения без управления. 
Цели. Вы должны понять: 


что такое обучение без управления и что такое принцип 
кластеризации образцов; 

принципы построения самоорганизующейся сети Кохонена, 
чтобы иметь возможность реализовать такую сеть на том 
языке программирования, который вы предпочтете. 


Требования. Знание основ линейной алгебры на уровне, представленном 
в приложении А. Знакомство с материалом главы 1. 


3.1. Основные идеи 


В предыдущей главе мы рассмотрели управляемое обучение, когда ней- 
ронная сеть обучается классифицировать образцы в соответствии 
с инструкциями: целевой выходной образец дает информацию сети о том, 
к какому классу следует научиться относить входной образец. При обуче- 
нии без управления таких инструкций нет, и сети приходится проводить 
кластеризацию образцов (Т.е. разделение их на группы) самостоятельно. 
Все образцы одного кластера должны иметь что-то общее — они будут 
оцениваться, как подобные. Предположим, например, что перед нами сто- 
ит задача классификации мебели по признакам полезности и красоты. Все 
объекты, подобное стулу, попадут при этом в одну группу, а все объекты, 
подобные столу, — в другую. Эти группы затем анализируются, и от груп- 
пы подобных столу предметов отделяется группа письменных столов. 
Группа письменных столов подобна группе предметов, подобных столам, 
поэтому эти группы должны разместиться близко одна к другой и далеко 
от группы предметов, подобных стулу. Алгоритмы кластеризации выпол- 
няют такие операции с образцами данных. Группы в дальнейшем мы будем 
называть кластерами и предполагать, что разделение образцов на кластеры 
должно удовлетворять следующим двум требованиям. 
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e Образцы внутри одного RAAtS De должны быть в некотором смыс- 
ле подобны. 


e Кластеры, подобные в некотором смысле, должны размещаться 
близко один от другого. 


На рис. 3.1 показано размещение на двумерной плоскости данных, кото- 
рые естественным образом организуются в три кластера: соответствующая. 
образцу точка попадает в определенный кластер, если она располагается 
близко к точкам этого кластера в сравнении с точками, принадлежащими 
другим кластерам. Мерой близости (или подобия) двух точек обычно являет- 
ся квадрат евклидова расстояния между ними, вычисляемый по формуле 


‚= Ln Хи)”, 


где dp, обозначает квадрат евклидового расстояния между точкой р 
и точкой 4, х„ — 1-я координата образца р (аналогично для образца 4), 
ап — значение размерности. 


Xo 


Рис. 3.1. Данные, формирующие три кластера 


Если для кластера j рассмотреть вектор р ;› определяемый центрои- 
дом (точкой, соответствующей усредненной характеристике размещения 
всех образцов в кластере), то для данных на рис. 3.1 решение о том, ка- 
кому из кластеров принадлежит произвольный вектор х (изображаемый 
на плоскости в виде точки), определяется значением 


index(x) = min d(p;, <i: для всех j, 
возврашающим индекс кластера с наименьшим квадратом евклидова рас- 
стояния до вектора х. Векторы р ; могут рассматриваться как прототипы 


кластеров, и эти прототипы могут служить для представления ключевых 
признаков кластера. Например, если необходимо разделить на группы 
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баскетболистов и жокеев, несомненно, что в качестве характерного при- 
знака можно выбрать рост. Поэтому значения элементов, означающих рост 
в векторах-прототипах двух кластеров, должны существенно отличаться. 
Алгоритм кластеризации представляет собой статистическую процедуру 
выделения групп из имеющегося набора данных. Существует немало алго- 
ритмов кластеризации самого разного уровня сложности. Один из самых 
простых подходов заключается в том, чтобы предположить существование 
определенного числа кластеров и произвольным образом выбрать коорди- 
наты для каждого из прототипов. Затем каждый вектор из набора данных 
связывается с ближайшим к нему прототипом, и новыми прототипами 
становятся центроиды всех векторов, связанных с исходным прототипом. 
На рис. 3.2 показан случайный выбор прототипов, которые к концу обуче- 
ния должны переместиться в центры кластеров, как показано на рис. 3.3. 


Рис. 3.2. Три случайных вектора, которые будут смещаться, 
выступая в роли прототипов для кластеров 


Рис. 3.3. Каждый из прототипов переместился в точку, со- 
ответствующую центроиду кластера 
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Пример 3.1 
l. Найдите квадрат евклидового расстояния между векторами: 


р = [-2.3 1.4], 
х = [4.5 0.6]. 


2. Найдите квадрат евклидового расстояния между векторами: 


р = [0.4 0.3 1.1 0.9], 
х = [0.6 0.7 -0.5 1.1. 


Решение 3.1 
1. d(p, x) = (-2.3-4.5)? +(1.4-0.6)? = 46.9. 


2. d(p,x) = (0.4-0.6)? + (0.3-0.7)? + (1.1--0.5)? + (0.9-1.1)? = 2.8. 


Прототипы можно рассматривать, как резюме экзаменуемого набора дан- 
ных. Кластеры на рис. 3.1 имеют разные размеры, и самый болышой из них 
имеет достаточно большую протяженность по обеим осям. Иногда бывает 
удобно представлять кластер несколькими прототипами, чтобы получить 60- 
лее детальную характеристику данных. Чтобы распознать кластеры, являю- 
щиеся частями большего кластера, необходимо знать положение всех прото- 
типов друг относительно друга. Одной из проблем применения алгоритмов 
кластеризации является выбор оптимального числа кластеров. Если число 
кластеров выбрать слишком малым, могут быть упущены некоторые важные 
характеристики данных, а если кластеров окажется слишком много, то мы не 
получим никакой эффективной итоговой информации о данных (может даже 
случиться, что каждый образец создаст свой кластер). Можно сформулиро- 
вать некоторые основные свойства идеального алгоритма кластеризации: 


» автоматическое определение числа прототипов; 
е сравнение прототипов; 
» представление характерных признаков прототипа. 


На практике первым из указанных свойств не обладает ни один из известных 
алгоритмов кластеризации. Нейронная сеть с обучением без управления, вы- 
полняющая кластеризацию, представляет собой самоорганизующуюся карту 
признаков, которую в начале 80-х годов предложил Кохонен (Kohonen). 


3.2. Самоорганизующаяся карта признаков. 


Самоорганизующаяся карта признаков (сеть ЗОЕМ — Self-Organizing 
Feature Мар, см. [Kohonen, 1990]) имеет набор входных элементов, число 
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которых соответствует размерности учебных векторов, и набор выходных 
элементов, которые служат в качестве прототипов. Базовая архитектура 
сети ЗОЕМ показана на рис. 3.4. Например, для данных, показанных на 
рис. 3.1, потребуется сеть с двумя входными и по крайней мере тремя 
выходными элементами, представляющими три кластера. 


Рис. 3.4. Эта сеть имеет три входных и пять кластерных элементов, 
каждый элемент входного слоя связан с каждым элементом кла- 
 стерного слоя 


Входные элементы предназначены только для того, чтобы распреде- 
лять данные входного вектора между выходными элементами сети. Вы- 
ходные элементы называются кластерными элементами. Так как число 
входных элементов соответствует размерности вводимых векторов, 
а каждый входной элемент связан со всеми кластерными элементами, 
общее число влияющих на кластерный элемент весовых значений тоже 
оказывается равным размерности входных векторов. Часто удобно ин- 
терпретировать весовые значения кластерного элемента как значения 
координат, описывающих позицию кластера в пространстве входных 
данных. На рис. 3.5 показано, как связываются весовые значения 
с пространством входных данных. 

Кластерные элементы размещаются в виде одно- или двумерного мас- 
сива, как показано на рис. 3.6. В ходе обучения все элементы могут 
рассматриваться как претенденты на награды в виде учебных векторов. 
Когда на конкурс выставляется какой-либо учебный вектор, вычисля- 
ются расстояния от него до всех кластерных элементов, и элемент, ко- 
торый находится к данному учебному вектору ближе всех, объявляется 
элементом-победителем. Для элемента-победителя выполняется кор- 
ректировка весовых значений так, чтобы этот кластерный элемент стал 
к учебному вектору еще ближе. Обычно корректировка весовых значе- 
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ний выполняется и для элементов, близких к элементу-победителю. 
Весовые значения элемента подлежат обновлению, если элемент лежит 
внутри круга заданного радиуса с центром в элементе-победителе. 
В ходе обучения радиус обычно постепенно уменьшается. Норма обу- 
чения ограничивает величину, на которую кластерный элемент может 
передвинуться по направлению к учебному вектору, и, подобно радиу- 
су, норма обучения тоже со временем постепенно уменьшается. В на-` 
ших примерах рассматривается размешение кластерных элементов 
в виде линейного массива или квадратной сетки, но могут использо- 
ваться и другие формы, например шестиугольная сетка. От топологии 
зависит только то, какие элементы должны обновляться для данного 
конкретного радиуса. 

Обычно число кластерных элементов выбирают меньшим, чем число 
учебных образцов, поскольку целью является получение упрощенной ха- 
рактеристики данных. К концу обучения кластерные элементы обеспечи- 
вают “информационную сводку” по пространству входных образцов. 
Кластерные элементы выступают в роли карты признаков пространства 
входных данных. Например, немного позже в этой же главе мы увидим, 
что в результате кластеризации изображений символов разные области 
кластерных элементов будут характеризовать разные символы (или 
их комбинации). 


Координата 
x4 


Координата 
x, 


Рис. 3.5. На этой схеме показано, как в качестве прототипа может выступать кластерный 
элемент. Входной слой использует значения координат точки входного пространства. 
В процессе обучения весовые значения корректируются, и по окончании обучения все 
кластерные элементы займут в пространстве входных данных положение, соответствую- 
щее полученным для них весовым значениям 
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Элемент-победитель — только OH должен обновляться, 
когда радиус равен 0 


Элементы, которые должны обновляться, когда радиус равен 1 


Элементы, которые должны обновляться, когда радиус равен 2 


Рис. 3.6. Вверху кластерные элементы сети размещены в линию, 
а внизу — в виде квадратной сетки. От размещения зависит, какие 
элементы попадут внутрь круга данного радиуса с центром в элементе- 
победителе. Элементы можно разместить иначе (например, в виде тре- 
угольника или шестиугольника), но чаще всего используются именно 
линейное размещение и размещение в виде квадрата 
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3.2.1. Алгоритм 


В следующем алгоритме п обозначает норму обучения, а п — шаг во 
времени. 


инициализировать весовые значения случайными значениями 
выполнять, пока not HALT 
для каждого входного вектора 
для каждого кластерного элемента вычислить расстояние до учебного вектора: 


1 


найти элемент j, для которого расстояние минимально 

для элементов из круга заданного радиуса обновить весовые векторы по формуле 
и; (n+l) = и, (п) +1 (т)[х; — wy (п)] 

проверить, требуется ли обновление нормы обучения или радиуса 

проверить HALT 


Учебные векторы выбираются из набора векторов случайным образом. 
Условие HALT (останов) выполняется тогда, когда величины изменения 
весов для всех кластерных элементов становятся очень маленькими — 
при этом условии учебные векторы должны попадать в одни и те же зо- 
ны карты при переходе от одной эпохи к следующей. 

Норма обучения со временем меняется. Она может, например, 
сначала иметь значение 0.9, а затем уменьшаться линейно до некото- 
рого фиксированного малого значения (скажем, 0.01), после чего ос- 
таваться неизменной. Радиус обычно выбирается достаточно боль- 
шим; чтобы сначала обновлялись все элементы. Радиус тоже со вре- 
менем уменьшается, и в конце, как правило, должны обновляться 
только несколько соседствующих с элементом-победителем элементов 
или вообще только сам этот элемент. Норма обучения тоже может за- 
висеть от того, насколько близко размещается обновляемый элемент 
к элементу-победителю. 


Пример 3.2 


1. Сколько эпох потребуется для того, чтобы значение п умень- 
шилось до 0.1, при условии использования следующего правила 
обновления: 


7(0) = 0.90, 
n(n +1) = n(n) - 0.001. 


2. Сеть SOFM имеет вид двумерной сетки размером 10x 10, a pa- 
диус изначально задан равным 6. Выясните, как много элемен- 
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тов должны будут обновляться после 1000 эпох, если элемент- 
победитель размешен в правом нижнем углу сетки, а радиус 
меняется по правилу: 


г=г- 1, если номер _текушей_эпохи mod 200 = 0. 


Предполагается, что нумерация эпох начинается с 1. 


Решение 3.2 
1. 0.1 = 0.9 —л0.001, 


_ 0.9-0.1 
0.001 


2. Если предположить, что счет эпох начинается с 1, радиус будет 
уменьшаться на | после каждых 200 эпох. После 1000 эпох ра- 
диус окажется равным 1. Число изменяемых элементов будет’ 
равно четырем, включая элемент-победитель. 


3.2.2. Обучение сети ЗОЕМ 


Карта признаков проходит два этапа обучения. На первом этапе 
элементы упорядочиваются так, чтобы отражать пространство входных 
элементов, а на втором этапе происходит уточнение их позиций. Как 
правило, процесс представляется визуально путем использования дву- 
мерных данных и построения соответствующей поверхности. Напри- 
мер, входные векторы выбираются случайным образом на основе одно- 
родного распределения в некотором квадрате, и начинается обучение 
карты. В определенные моменты в ходе обучения строятся изображе- 
ния карты путем использования соответствия, показанного на 
рис 3.5. Элементы соединяются линиями, чтобы показать их относи- 
тельное размещение. Сначала карта выглядит сильно “измятой”, но по- 
степенно в ходе обучения она разворачивается и расправляется. Конеч- 
ным результатом обучения является карта, покрывающая все входное 
пространство и являющаяся достаточно регулярной (т.е. элементы ока- 
зываются распределенными почти равномерно). Для примера была рас- 
смотрена карта с топологией квадрата из 49 элементов, и для 250 точек 
данных, взятых из единичного квадрата, было проведено ее обучение, 
которое начиналось со случайного набора весовых значений, задающих 
размещение кластерных элементов в центре входного пространства, как 
показано на рис. 3.7. На рис. 3.8 и 3.9 иллюстрируется процесс разво- 
рачивания карты с течением времени. 


= 800. 
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Рис. 3.7. Весовые векторы инициализируются случайными 
значениями из диапазона 0.4-0.6 


0 0.2 0.4 0.6 0.3 _ 1 


Рис. 3.8. Карта по прошествии 20 эпох 


Как и для других типов сетей, в данном случае результат обучения за- 
висит от учебных данных и выбора параметров обучения. На рис. 3.10 
показано распределение 100 учебных образцов в единичном квадрате. Ha 
этом наборе данных была обучена карта с топологией квадрата из 25: 
элементов, а обучение начиналось со случайного набора весовых значе- 
ний, соответствующих размешению элементов в центре пространства 
входных данных. Данная сеть относительно мала, поэтому совсем не уди- 
вительно, что конечным результатом использования неоднородно рас- 
‚ Пределенных данных явилась нерегулярная карта, показанная на рис. 3.11. 
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Рис. 3.9. Карта по прошествии 20 эпох незадолго до окончания 
обучения. Элементы теперь упорядочены, и карта станет еще 
более регулярной по окончании финальной фазы сходимости 


0 0.2 0.4 0.6 0. 1 


Рис. 3.10. Данные, сгенерированные случайным образом. 
Этот набор данных не однороден — здесь имеются пустоты, 
так что некоторые области входных данных оказываются 
представленными весьма бедно 


Эта карта имеет “смятый” участок в верхнему правому углу. Скручива- 
ния могут быть результатом неправильного выбора начальных весовых зна- 
чений, которые в начале обучения задают местоположение каждого кла- 
стерного элемента в пространстве входных данных. Например, если в начале 
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Рис. 3.11. Размещение элементов карты после обучения сети 
с использованием данных, показанных на рис. 3.10. Соседние 
элементы соединены линиями 


0 0.2 0.4 0.6 0.8 1 


Рис. 3.12. Линейная карта из 25 элементов, соответст- 
вующих случайным данным из единичного квадрата 


обучения все элементы взвешиваются так, что они оказываются смещен- 
ными в одном направлении в пространстве входных данных, то процесс 
упорядочения может усложниться. На рис. 3.12 показан тот же экспери- 
мент, но на этот раз карта представляет собой линейный массив элемен- 
тов. Этот линейный массив скручивается так, чтобы он заполнил про- 
странство входных данных. Те же самые свойства пространственного за- 
полнения можно применить и в случае других форм. Например, если 
набор учебных данных выбирается равномерно из треугольника, то мож- 
но разместить элементы квадратной карты так, чтобы эти элементы за- 
полнили треугольник, как показано на рис. 3.13. 
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Рис. 3.13. Квадратная сетка сети SOFM, постепенно превращаю- 
щаяся в треугольную. Учебные данные были взяты из закрашен- 
ной серым области, а весовые значения сети перед началом обу- 
чения выбирались случайным образом так, чтобы все элементы 
располагались внутри черного прямоугольника 


Хехт-Нильсен [Hecht-Nielsen, 1990] предлагает подобный пример 
двумерного отображения, но в том примере задачей является построение 
карты угловых характеристик движения руки робота с координатами 
(x, у). Описание соответствующего эксперимента приводится ниже. 

Для того чтобы представить координаты (x, у) захвата робота, где со- 
седние элементы представляются соседними координатами, будет ис- 
пользоваться карта квадратной формы. Можно представлять карту как 
шахматную доску (или ее часть, в зависимости от числа используемых 
элементов). Идея показана на рис. 3.14. Соотношение между углами 
и координатами задается следующими формулами: 


x = [с0$6, +1, соз(0, +6,), 
у = l, sin 8, +l, sin(O, +6,) ’ 


cos7!| © y+ +1; 
211, 


<>) 
i) 
I 


| /,sind, 
1+1, cos, 


0, = tan (y/x)+ tan 


92 3 Глава 3. Кластеризация образцов 


Это соотношение является нелинейным, HO соседним координатам (x, у) 
будут соответствовать близкие углы. | 


Рис. 3.14. Построение отображения углов, характеризующих сегменты руки, 
в узлы сетки. Если рука должна переместиться, например, в верхний правый угол, 
то значения соответствующего элементу верхнего правого угла весового вектора 
будут задаваться значениями углов, которые должны получить сегменты руки. Ин- 
терпретируйте это как давление на элемент в направлении, куда должен перемес- 
титься конец руки. Элемент в результате покажет соответствующие значения углов 


Здесь представлены результаты одной попытки без какого-либо уточ- 
нения. Скорее всего после нескольких экспериментов можно получить 
и лучшие результаты. Рука робота была размещена так, как показано на 
рис. 3.15. Набор учебных данных был очень небольшим и содержал 25 
точек: {(4, 1), (4,2), (4,3), (4,4), (4, 5), (5, 1), (5,2), (5, 3), (5, 4), (5, 5), ... (8, 5)}. 
Были вычислены углы, соответствующие нахождению конца руки робота 
в этих точках, и значения этих углов использовались для обучения се- 
ти SOFM. Элементов обычно используют ego меньше, чем точек, 
соответствующих данным обучения, поскольку основное назначение сети 
SOFM — получение сводки о пространстве входных данных в терминах 
некоторого набора прототипов. Однако в данном эксперименте это не 
так, и здесь была рассмотрена квадратная карта из 49 элементов. Целью 
являлась демонстрация того, что в этом случае с каждым элементом мо- 
жет быть связано не более одной соответствующей учебным данным точ- 
ки и выяснение того, как при этом распределятся элементы в простран- 
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стве входных данных. Сначала весовые значения устанавливаются рав- 
ными малым случайным значениям. Результаты, полученные в ходе экс- 
перимента, показаны на рис. 3.16—3.18. Из рис. 3.18 видно, что для каж- 
дого учебного образца имеется представляющий его элемент. Кроме того, 
имеется большое число свободных элементов, занимающих в пространст- 
ве входных данных промежуточные положения. 


6 


0 2 а 6 8 10: 


Рис. 3.16. Размещение весовых векторов в координатах (x, у) после 5000 циклов 
обработки всех учебных данных | | 
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0 <-3 4 6 8 10 


Рис. 3.17. Размещение весовых векторов в координатах (x, у) после 10000 цик- 
лов обработки всех учебных данных 


0 2 4 6 628 10 


Рис. 3.18. Размещение весовых векторов в координатах (х, у) после 20000 цик- 
лов обработки всех учебных данных 


Пример 3.3 | 


Для обучения сети ЗОЕМ с тремя входными и двумя кластерными 
элементами используются четыре учебных вектора 


[0.8 0.7 0.4], [0.6 0.9 0.9], [0.3 0.4 0.1], [0.1 0.1 0.3] 
и начальные весовые значения 
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0.5 0.4 
0.6 0.2 |. 
0.8 0.5 


Начальный радиус выбирается равным 0, а норма обучения п — paB- 
ной 0.5. Вычислите изменения весовых значений в ходе первого 
цикла обработки данных, рассматривая учебные векторы в указан- 
ном порядке. 
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Рассматривая входной вектор 1, для кластерного элемента 1 получаем 
4, = (0.5-0.8)? +(0.6-0.7)? + (0.8 -0.4)? = 0.26, 
а для кластерного элемента 2 — 
4› = (0.4-0.8)? + (0.2-0.7)? + (0.5-0.4)? = 0.42. 
Элемент 1 оказывается ближе, поэтому 
и’; (п +1) = Wij (п) + 0.5[x; — Wij (п)]. 


Новыми весовыми значениями являются 


0.65 0.4 
0.65 0.2 |. 
0.60 0.5 


Рассматривая входной вектор 2, для кластерного элемента 1 получим 
4, = (0.65 —0.6)” + (0.65-0.9)? + (0.60-0.9)? = 0.155, 
а для кластерного элемента 2 — 
45 = (0.4-0.6)? + (0.2-0.9)? +(0.5-0.9)? = 0.69. 


Элемент 2 оказывается ближе, и новыми весовыми значениями будут 
0.625 0.400 
0.775 0.200 |. 
0.750 0.500 


Рассматривая входной вектор 3, для кластерного элемента | получим 
4, = (0.625 —0.3)* + (0.775-0.4)? + (0.75-0.1)? = 0.67, 
а для кластерного элемента 2 — 


4> = (0.4-0.3)? + (0.2-0.4)? + (0.5-0.1)? = 0.21. 
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Элемент 1 оказывается ближе, и новыми весовыми значениями будут 
0.625 0.350 
0.775 0.300 |. 
0.750 0.300 


Рассматривая входной вектор 4, для кластерного элемента 1 
получим 


4, = (0.625-0.1)? + (0.775 — 0.1)? +(0.75-0.3)? = 0.93, 
а для кластерного элемента 2 — 
dy = (0.35-0.10)? + (0.30- 0.10)? + (0.30-0.30)? = 0.10. 
Элемент 2 оказывается ближе, и новыми значениями весов Е 
0.625 0.225 


0.775 0.200 |. 
0.750 0.300 


3.2.3. Дополнительные сведения о сети SOFM 


В определенных случаях в качестве меры сходства векторов можно 
использовать угол между ними. Взгляните на рис. 3.19. Вектор а ближе 
к прототипу р, в смысле евклидова расстояния, но ближе к прототипу 
P>, если в качестве меры сходства выбрать значение угла. Произведение 
(называемое также скалярным произведением) векторов 

УЕ у... vy) И w=(w № ... м] 
определяется формулой 


У-\ = [МИ 2 <... Ум]. 


Угол между ненулевыми векторами у и м равен 


big v-w 
OS ить oat le 
НУ м | 


Норма ИЛИ модуль вектора вычисляется по формуле 
[УП ЕЮ... + . Вектор можно нормализовать путем деления 
каждого элемента вектора на норму вектора. Если все векторы норма- 
лизованы, то индекс прототипа-победителя для входного образца зада- 
ется условием: 


index(x) = max {p ; - x} для всех j. 
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Рис. 3.19. Три вектора, используемые в примере 3.4 


Обучение сети SOFM, в которой в качестве меры сходства исполь- 
зуется скалярное произведение векторов, проводится так же, как бы- 
ло описано выше, но формула обновления весов теперь должна быть 
следующей: 

w ;(п) +x. 


+ (a+ =. 
ie Iw (n) + nl 


Таким образом, для элемента-победителя к его весовому вектору добав- 
ляется часть этого вектора, а затем полученный в результате вектор нор- 
мализуется. 


Пример 3.4 
Пусть векторами на рис. 3.19 являются 
a=[l 4], 
р: = [2 Ц, 
р› = [6 6]. 
(а) Используя скалярное произведение, покажите, что а ближе к p>, 


чем к р. 


(6) Если р› оказывается прототипом-победителем в некоторой сети 
SOFM, то покажите, как должен двигаться вектор p> в предпо- 
ложении, что вектор а предлагается на рассмотрение сети два 
раза подряд (т.е. в случае, когда нет других учебных образцов). 
Считайте, что yn = 1. 
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Решение 3.4 
(а) Нормализованные скалярные произведения равны: 


т @х2)+(4х| 


арт ны = ВЫ 
12 442/22 +22 | 
(1X6) +(4%6)_ _ 9) 954 


Е 
ар> = —===——=— 
: \12 +42 \/62 +6? 


Так что р. оказывается ближе. Обратите внимание на то, что 
ap; Используется здесь для обозначения нормализованного 


произведения, где верхний индекс означает транспонирование 
вектора. 


7 


(6) Нормализованными векторами являются 


а=| 1/17 4/7]. 
P2 = | 6/72 6/72 |. 


Для первого представления имеем: 


[6/V72+1/Vi7 6/\/72 + 4/17 | 
(6/72 +1/ 17) + (6/J72 +417) 


= [0.493 0.870]. 


p2(n +1) = 


Для второго представления имеем: 


| 0.493 +1/ 17 0.870 + 4/17 } 


y(0.493-+1/Vi7 y +(0.870+4/ 17 y : 


= [0.371 0.928]. 


р›(п+2) = 


В работе [Kohonen, 1990] дается несколько практических советов для 
обучения сети SOFM. В течение первых 1000 итераций норма обучения 
должна быть около единицы, а после этого она должна постепенно сни- 
жаться. Характер уменьшения нормы обучения не имеет особого значе- 
ния и может быть линейным, экспоненциальным или обратно пропор- 
циональным числу итераций. Упорядочение карты признаков происходит 
на протяжении этой начальной фазы. После окончания фазы упорядоче- 
ния норма обучения должна поддерживаться постоянной и малой 
(например, равной 0.1 или менышему значению) на протяжении доста- 
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точно долгого времени, пока происходит уточнение карты. Радиус. дол- 
жен начинаться с больших значений (например, со значения, большего 
половины диаметра карты) и уменьшаться линейно в течение первых 
1000 итераций, после чего радиус может оставаться равным 1 или 0. Чис- 
ло итераций должно быть большим, обычно между 10000 и 100000. 


3.3. Эксперимент 


В главе 2 был рассмотрен процесс настройки сети с прямой связью на 
основе использования управляемого обучения для распознавания четырех 
символов {A, В, С, D} из трех различных шрифтов. Эти учебные символы 
показаны снова на рис. 3.20. Сейчас мы рассмотрим еще один экспери- 
мент с использованием тех же учебных образцов. 


АВСО 
AKC D 
ABC D 


Рис. 3.20. Каждый ряд символов представляет свой шрифт 


Целью этого эксперимента является демонстрация того, как сеть 
SOFM группирует учебные экземпляры данных. Для демонстрации была 
выбрана квадратная сетка из девяти элементов. Начальное значение ра- 
диуса был установлено равным 3, а норма обучения — равной 1. Сеть 
обучалась в течение 3000 циклов обработки всех образцов. В табл. 3.1 по- 
казано, как группируются символы по окончании обучения. Каждая 
ячейка таблицы соответствует одному элементу сетки. 
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Таблица 3.1. Элементы сети SOFM с приписанными им символами: разные числа 
соответствуют разным шрифтам 


Изображения символов задаются сеткой 16х 16 пикселей, так что для 
каждого элемента получается 256 входных значений. Мы считаем, что 
после достижения сходимости в сети, каждый из элементов можно будет 
считать прототипом для тех образцов, которые окажутся с ним связан- 
ными. Если представить весовые векторы в виде изображений, можно 
ожидать, что изображения элементов будут выглядеть подобно изображе- 
ниям образцов, для которых этот элемент окажется прототипом. Проце- 
дура построения изображения элемента ДОВОЛЬНО проста. 
В оригинальном поточечном изображении символа белые пиксели пред- 
ставлены значением 0, а черные — значением 1. Поэтому все весовые 
значения должны быть между 0 и 1. Каждое весовое значение связывает- 
ся с одним пикселем оригинальной сетки, поэтому каждый вес можно 
интерпретировать как значение, характеризующее оттенок серого цвета 
(в действительности оттенки серого характеризуются значениями от 0 до 
255, поэтому и весовые значения придется масштабировать в этом диапа- 
зоне). На рис. 3.21, где показаны изображения наборов весовых значений 
каждого из элементов, можно видеть, с каким именно элементом вероят- 
нее всего следует связать образец. В этом эксперименте все символы “А” 
были сгруппированы вместе, как и все символы “С”. Символы “В” 
и “О” имеют похожие формы, поэтому они тоже оказались сгруппиро- 
ванными вместе. В идеале можно было бы надеяться, что “В” и “О” то- 
же будут отнесены к разным кластерам. Однако в реальных задачах кла- 
стеризация указывает лишь на подобие и совсем не означает полную за- 
щиту от ошибок. Кроме того, мы сами при распределении объектов по 
категориям делаем это в зависимости от контекста. Например, корешки 
‘книг можно рассматривать как удобный информационный элемент, если 
иметь в виду организацию работы, или как украшения офиса, если иметь 
в виду дизайн. В данном примере сеть сообщила нам кое-что о символах, 
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не получив об этих символах никакой информации от Hac (сеть обуча- 
лась без управления). Сеть сообщила нам, что шесть образцов (“А” 
vu “С”) попали в две очень несходные группы. Конечно, воспользовав- 
шись своим совершенным зрением, мы могли бы в данном случае рас- 
познать сходство разных форм быстрее и лучше, но суть здесь, однако, 
в том, чтобы иметь возможность анализировать данные, которые могут 
иметь очень много признаков и не могут быть представлены так про- 
сто. Если мы не знаем, как можно было бы классифицировать такие 
данные, сеть типа самоорганизующейся карты Кохонена может ока- 
заться весьма полезной. 


OO 
©) 


i 


mB ho р 


Рис. 3.21. Весовые значения элементов, представлен- 
ные в виде изображений в оттенках серого 


3.4. Резюме 


Нейронная сеть может осуществлять группирование данных, HCITOJIb- 
зуя процесс, напоминающий конкуренцию. Элементы сети могут также 
демонстрировать самоорганизацию, при которой элементы сети, пред- 
ставляемые в пространстве входных данных, повторяют топологию учеб- 
ных данных. В качестве степени сходства обычно ИСПОЛЬЗуУются либо 
евклидово расстояние между векторами, либо угол между ними. 
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Самоорганизующаяся карта признаков имеет следующие свойства. 


e Все кластерные элементы связываются с входными элементами. 
Задачей входных элементов является распределение вводимых 
признаков между кластерными элементами. 


e В ходе обучения элементы конкурируют за образцы. Элемент- 
победитель, который является элементом, находящимся к входно- 
му образцу ближе всех других, корректирует значения своих весо- 
вых коэффициентов. так, чтобы он стал к данному входному об- 
разцу еще ближе (т.е. чтобы он стал еще более сходным с ним). 


e Обучение состоит из двух этапов. Ha первом этапе обновление ве- 
совых значений происходит и для всех элементов из некоторой 
окрестности элемента-победителя. Эта окрестность постепенно 
уменьшается. На втором этапе обучения весовые значения кор- 
ректируются малыми добавками до тех пор, пока не будет достиг- 
нута сходимость сети. 

e Прошедшая обучение сеть может использоваться для классифика- 
ции неизвестных образцов на основе их сходства с образцами, 
предъявленными сети в процессе обучения. 


3.5. Дополнительная литература 


В работе [Kohonen, 1990] приводятся некоторые интересные примеры 
процесса самоорганизации и практические советы по использованию се- 
тей ЗОЕМ. Статья Кохонена является также. хорошим источником ссы- 
лок на публикации о других исследованиях, посвященных сетям SOFM. 
В [Несм-№е]5еп, 1990] содержится хороший обзор примеров конкурент- 
ного обучения. Другим широко используемым типом осушествляющих 
кластеризацию сетей являются сети, в которых применяется метод адап- 
тивного резонанса. Они были предложены в [Carpenter, Grossberg, 1987], 
но для первого знакомства мы рекомендуем [Fausett, 1994]. 


3.6. Упражнения 

1. Векторы x, р, и p> являются следующими: 
х= [0.2 -1.4 2.3], 
p, =[0.6 -—4.0 7.0], 
р› =(0.1 -1.0 2.2]. 
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(а) К какому из прототипов оказывается ближе всего вектор x 
в смысле евклидова расстояния? 


(6) К какому из прототипов оказывается ближе всего вектор х в смыс- 


ле скалярного произведения? 


(в) Скорректируйте весовой вектор прототипа-победителя из’ п. (а) 
в соответствии с алгоритмом обучения SOFM при норме 
обучения 0.8. 


(г) Скорректируйте. весовой вектор прототипа-победителя из п. (а) 
в соответствии с алгоритмом обучения SOFM для случая использо- 
вания скалярного произведения при норме обучения 0.8. 


Повторите вычисления упражнения 1 для следующих векторов: 
х= [0.2 -14 -0.3 0.8], 
р! =[0.3 -3.0 1.0 0.2], 
р› =[0.4 -—1.4 -2.0 3.0]. 


Норма обучения в сети ЗОЕМ уменьшается в течение первых 1000 
итераций по закону 


n 
= 0.15) 1- у 
non) = 025 1- 


где п обозначает номер итерации. 


(а) Сколько итераций будет выполнено прежде, чем норма обучения 
уменьшится до значения 0.003? 


(а) Почему указанный закон не является хорошим выбором? 


На рис. 3.22 показаны два кластера данных (на рисунке они за- 
крашены). Не закрашенная область в верхнем левом квадранте 
содержит несколько прототипов (единичных весовых векторов), 
выступающих в качестве начальных состояний для сети SOFM. 
Принимая радиус равным нулю, объясните, что может про- 
исходить с картой признаков, если начать обучение сети с эти- 
ми данными. 


Все векторы на рис. 3.23 лежат на единичной окружности. Предпола- 
гая, что векторы всегда должны приводиться к такому виду, будет ли 


разница в оценке прототипа-победителя при использовании в качест- 


ве меры близости евклидова расстояния и скалярного произведения? 
Обоснуйте свое заключение. 
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Рис. 3.22. Два кластера данных и прототипы для сети SOFM 


Кластеры данных 


Прототипы 


Рис. 3.23. Векторы на единичной окружности 


6. Покажите, что для произвольного вектора х нахождение элемента- 
победителя по критерию минимума евклидова расстояния эквива- 
лентно использованию критерия максимума скалярного произведения 
для нормализованных векторов. (Лодсказка. В евклидовой метрике 
элемент-победитель может быть выражен через min {|| х-р Ур. Рас- 
кройте это выражение и сравните с нормализованным определением 
скалярного произведения.) 


7. Линейная сеть ЗОЕМ с тремя элементами обучается решению про- 
блемы XOR с использованием 0.1 и 0.9 для значений 0 и 1 соответст- 
венно и с использованием соответствующих четырех учебных образ- 
цов. При обучении использовались скалярные произведения и были 
получены указанные ниже окончательные весовые значения. Как бы- 
ли разделены на кластеры образцы? 


Элемент 1 Элемент 2 Элемент 3 
0.110 0.707 0.994 
0.994 0.707 0.110 
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8. Сеть MAXNET (см. [Lippmann, 1987]) представляет собой конкурент- 
‚ную нейронную сеть, которая может использоваться для нахождения 
элемента сети, ввод которого оказывается максимальным. Каждый 
элемент соединен с самим собой, а также со всеми другими элемен- 
тами двунаправленными взвешенными связями. Все весовые значения 
устанавливаются равными между собой, кроме веса автосвязи, кото- 
рый устанавливается равным 1: 


1, если =], 
и’ a . * 
—-W, если iF fj, 


где 0 << 1/N, а М равно числу элементов сети. 


Значение активности элемента устанавливается равным вводу, если 
ввод оказывается больше нуля, а иначе значение активности устанав- 
ливается равным нулю. Элемент получает взвешенный сигнал от всех 
других элементов и от себя самого. Элемент не изменяет свою актив- 
ность до завершения итерации. Обновляются все элементы, 
и обновление происходит до тех пор, пока останется не более одного 
элемента с ненулевой активностью. 


На рис. 3.24 показаны значения активности трех элементов при усло- 
вии, что значения весов были инициализированы в соответствии 
с вышеуказанными правилами. 


0.5 0.2 Е [05° 


Для первой итерации вводом первого элемента будет 0.5 + 0.2 x -0.5 + 
0.6 x -0.5 = 0.1. Новым значением активности будет 0.1, поскольку ввод 
оказывается болыше нуля. До конца итерации активность элемента 
будет оставаться равной 0.5. Ввод для второго элемента равен 
0.2 + 0.5 x -0.5 + 0.6х-0.5 =-0.35. Новым значением активности будет 0, 
так как ввод оказывается меньше нуля. До конца первой итерации ак- 


Рис. 3.24. Значения активности трех элементов 
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тивность элемента будет оставаться равной 0.2. Ввод для третьего эле- 
мента равен 0.6 + 0.5 х -0.5 + 0.2 х -0.5 = 0.25. Новым значением актив- 
ности будет 0.25, поскольку ввод оказывается больше нуля. В данный 
момент все элементы могут изменить значения активности. | 


Для второй итерации вводом первого элемента будет 0.1 +0+ 0.25 х- 
0.5 =-0.025. Поэтому новым значением активности в конце итерации 
будет нуль. Ввод для второго элемента должен быть меньше нуля. 
Ввод для третьего элемента равен 0.25 + 0.1 x-0.5+0=0.2. Единствен- 
ным элементом с ненулевой активностью оказывается третий элемент. 
Поэтому процесс завершится, и победителем будет третий элемент. 


Повторите вышеприведенные рассуждения для значений активности 
элементов, равных 0.7, 0.6 и 0.3, соответственно. 


9. Покажите, как можно использовать сеть МАХМЕТ для нахождения 
элемента-победителя при решении упражнения 8. 


10. Рассмотрите сеть МАХМЕТ, состоящую из восьми элементов. По- 
стройте схему сети и обозначьте на этой схеме соответствующие весо- 
вые значения. Покажите, что для выбранного вами набора значений 
активности сеть будет работать надлежащим образом. 


11. Если для сети ЗОЕМ используется шестиугольная сетка и предполага- 
ется, что элементом-победителем является центральный элемент сет- 
ки, то сколько элементов должно быть обновлено при значении ра- 
диуса, равном 1, и сколько элементов должно быть обновлено при 
значении радиуса, равном 2? 
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Глава 4 


Ассоциация образцов 


Задача. Описание ассоциативной памяти. 
Цели. Вы должны понять: 


разницу между автоассоциативной и гетероассоциативной 
сетями; 

принципы построения дискретной сети Хопфилда 

и двунаправленной автоассоциативной сети, чтобы иметь 
возможность реализовать эти сети с помошью программы 
электронных таблиц или на том языке программирования, 
который вы предпочтете; 

как использовать для автоассоциации сеть с обратным 
распространением ошибок; 

как обеспечить сжатие данных с помощью автоассоциативной 
сети с обратным распространением ошибок. 


Требования. Знание основ линейной алгебры на уровне, представленном 
в приложении А. Знакомство с материалом главы 1. 


4.1. Введение 


Все знают, что такое ассоциация: слово одного языка может ассоции- 
роваться со словом другого языка, фотография друга ассоциируется с его 
именем и можно даже умудриться ассоциировать некоторое туманное 
изображение с определенным реальным объектом. В главе 2 уже была 
рассмотрена идея ассоциативного обучения в виде, когда для каждого 
учебного образца имелся желаемый выходной образец. В этой главе мы 
рассмотрим случай запоминаемых пар образцов. Идея заключается в том, 
чтобы выбрать нужный образец из памяти, даже если у нас нет всей не- 
обходимой информации для начала поиска сохраненного образца. На- 
пример, вы хотите найти книгу в библиотеке, но не помните ее назва- 
ния. При этом если вы знаете имя автора и описание того, чему книга 
посвящена, этого уже достаточно (с большой долей уверенности!), чтобы 
найти ассоциируемый с этой информацией объект. 
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Когда сохраняемая в памяти пара ассоциируемых образцов создается 
одинаковыми образцами, память называется автоассоциативной, а если 
образцы являются разными, то память называется гетероассоциативной. 
В этой главе будут рассмотрены три модели нейронных сетей для автоас- 
социации образцов. 


4.2. Дискретная сеть Хопфилда 


Сеть Хопфилда (Hopfield) является автоассоциативной сетью, ведущей 
себя подобно памяти, которая может вспомнить сохраненный образец даже 
по подсказке (в виде вводимых данных), представляющей собой искажен- 
ную помехами версию нужного образца. Например, сеть может сохранить 
набор изображений букв, а когда сети будет представлена искаженная версия 
сохраненного символа, сеть должна оказаться способной найти истинный эк- 
земпляр. Дискретная сеть Хопфилда имеет следующие характеристики. 


e Один слой элементов (входные элементы, представляющие вход- 
ной образец, не учитываются). 


е Каждый элемент связывается со всеми другими элементами, но 
элемент не связывается с самим собой. 


e 3a один шаг обновляется только один элемент, в отличие, например, 
от сети с обратным распространением ошибок, где все элементы слоя 
могут изменяться одновременно, если сеть реализована в виде аппа- 
ратных средств с соответствующими параллельными возможностями. 


е Элементы обновляются в случайном порядке, но в среднем каж- 
дый элемент должен обновляться в одной и той же мере. Напри- 
мер, в случае сети из 10 элементов после 100 обновлений каждый 
элемент должен обновиться приблизительно 10 раз. 


e Вывод элемента ограничен значениями 0 или 1. 


Сеть Хопфилда является рекуррентной в том смысле, что для каж- 
дого входного образца выход сети повторно используется в качестве 
ввода до тех пор, пока не будет достигнуто устойчивое состояние. 
Пример сети Хопфилда показан на рис. 4.1. Удобно считать, что сеть 
Хопфилда не имеет входных элементов, так как входной вектор просто. 
определяет начальные значения активности элементов. Например, если 
ввод является двоичным, то входной вектор [1101] означает, что зна- 
чения активности для элементов {1, 2, 4} будут равны 1, а для элемента 
{3} активность будет равна 0. Элемент обновляется тогда, когда все 
элементы передадут свои значения активности по имеющимся взве- 
шенным связям, после чего вычисляется сумма произведений (т.е. бе- 
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рется скалярное произведение). Значение активности элемента получа- 
ется на основе использования некоторого правила активизации. Каж- 
дый элемент сети Хопфилда имеет состояние, характеризующееся зна- 
чением активности, которое должен посылать данный элемент другим 
элементам, а состояние сети в любой момент времени задается векто- 
ром состояний всех ее элементов. 


она ® 


Рис. 4.1. Сеть Хопфилда с четырьмя элементами. Для каждо- 
го элемента входного вектора имеется свой элемент сети. 
Элементы сети связаны со всеми остальными ее элемента- 
ми, но не сами с собой. Связи являются двунаправленными 


В качестве входных данных сети Хопфилда можно использовать дво- 
ичные, но здесь мы будем использовать +1 для обозначения состояния 
“включено” и -1 — для состояния “выключено”. Комбинированный ввод 
элемента вычисляется по формуле: 


n 
net; = Уз, < 
i=l 


THe 5; обозначает состояние элемента с номером 1. Когда элемент обнов- 
ляется, его состояние изменяется в соответствии с правилом 


+1, если net ; >0, 


J —l, если net; < 0. 


Эта зависимость называется сигнум-функцией и в более краткой форме 
она записывается в виде 


5; = sgn(net;). 


Если комбинированный ввод оказывается равным нулю, то элемент оста- 
ется в состоянии, в котором он пребывал перед обновлением. 

Сеть работает очень просто. Входной вектор задает начальные состоя- 
ния всех элементов. Элемент для обновления выбирается случайным об- 
разом. Выбранный элемент получает взвешенные сигналы от всех ос- 
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тальных элементов и изменяет свое состояние. Выбирается другой элемент, 
и процесс повторяется. Сеть достигает предела, когда ни один из ее эле- 
ментов, будучи выбранным для обновления, не меняет своего состояния. 

Весовые значения для сети Хопфилда определяются непосредственно 
из учебных данных без необходимости проведения обучения в более при- 
вычном смысле. Сеть Хопфилда ведет себя как память, и процедура со- 
хранения отдельного вектора представляет собой вычисление прямого 
произведения вектора с ним самим. В результате этой процедуры созда- 
ется матрица, задающая весовые значения для сети Хопфилда, в которой 
все диагональные элементы должны быть установлены равными нулю 
(поскольку диагональные элементы задают автосвязи элементов, а эле- 
менты сами с собой не связаны). Таким образом, весовая матрица, соот- 
ветствующая сохранению вектора x, задается формулой 


W = хх. 


Пример 4.1. 


Найдите набор весовых значений сети Хопфилда, соответствующий 


сохранению образца 
[2 


Решение 4.1. 
1 1 -l 1 1 
ied fi a at 
fl -11 = 
1 
1 БЕ. 1 


Поэтому весовыми значениями будут 


О в И 
ed OR ae ее | 
\ = 
м © т 
й, тт. 0 


Первый столбец представляет весовые значения, связанные с пер- 
вым элементом, столбец 2 представляет весовые значения, связан- 
ные со вторым элементом, и т.д. Если сети будет предложен образец 
[1-111], то все элементы после обновления останутся в том же со- 
стоянии. Данные подсказки определяют начальные состояния всех 
элементов, так что в нашем случае второй элемент должен сначала 
находиться в состоянии -1, а все остальные — в состоянии |. Пер- 
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вый элемент обновляется с помощью умножения вектора подсказки 
на первый столбец матрицы весов: 


0 
—] 
fl -f 1°)) i #13. sgn(3) = 1. 


1 


Так что первый элемент останется в том же состоянии. Точно также 
при обновлении оставались бы неизменными и состояния всех ос- 
тальных элементов. 


Пример 4.2. 


Найдите устойчивое состояние сети Хопфилда из примера 4.1 при 
условии, что входным образцом является 


[-1-1 1 1]: 


Решение 4.2. 
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Элементы должны обновляться в случайном порядке. Для иллюстра- 
ции будем обновлять элементы, в порядке 3, 4, 1,2. Сначала рас- 
смотрим элемент 3: 


1 


—1 
[1-Е 0 =], sen(1) = 1. 


1 


Таким образом, элемент 3 остается в том же состоянии. Следующим 
является элемент 4: 


1 

—1 
[-1-110 : = 1 sgn(1) = 1. 

0 


Так что элемент 4 остается в том же состоянии. Теперь элемент 1: 
0 


—1 
f-l1 -l1 1 ]J : ее Sl sen(3) = |. 
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Так что элемент | изменит свое состояние с -1 на1. Наконец, 
элемент 2: 


= 


0 
fle heb 1 ; = -3, sgn(—3) = -1. 


if 


Так что элемент 2 останется в TOM же состоянии. Мы видим, что вы- 
явился ранее сохраненный вектор, характеризующий устойчивое со- 
стояние сети. Чтобы убедиться в том, что это состояние на самом 
деле является устойчивым, необходимо проверить, что в результате 
обновления ни один из элементов действительно не изменит своего 
состояния. 

Процедура сохранения нескольких образцов в сети Хопфил- 
да тоже проста: прямое произведение вычисляется для каждого 
вектора, и все полученные таким образом весовые матрицы скла- 
дываются. 


Пример 4.3. 


Определите весовую матрицу сети Хопфилда, соответствующую со- 
хранению следующих двух векторов 


[-1 | 1], 
В. 
Решение 4.3. 


Соответствующей весовой матрицей является матрица 


—1 1 
УМЕН 
== 1 
О OT via! ВЫ, 
ЕЕ PLE eee) т 
ке RAR | Sn! eee | 
Caer - 
= pod: 0-2 
Be ee ow 


Диагональные элементы были обнулены. 
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Эксперимент . 


Сеть Хопфилда использовалась для того, чтобы сохранить три образ- 
ца, изображения которых показаны на рис. 4.2. Каждый образец рас- 
сматривался в виде строки биполярных значений, где 1 представляла 
черный цвет, а —1 — серый. Строка состояла из 63 элементов, поэто- 
му сеть имела 63 элемента и 63 x 63 — 63 весовых значения (это чис- 
ло весовых значений прямого произведения минус нулевые диаго- 
нальные элементы). После определения весовых значений сети была 
предъявлена искаженная помехами версия числа “1”. Образец, кото- 
рый выявился после некоторого числа итераций, показан на рис. 4.3. 


ов ий Sas WE В 
ВЕ 


a OE Ка СИ ВУ PB 
г ми — 


ВЕ 
КВ НФ YS Oe 


Рис. 4.2. Три образца, сохраняемые сетью Хопфилда. 
Черным пикселям соответствуют значения 1, а се- 
рым — значения -1 


Этот эксперимент демонстрирует правильное восстановление сохра- 
ненного образца по искаженной его версии. Иногда сеть Хопфилда до- 
пускает ошибки, например, выявляя неверный образец или показывая 
искаженную версию правильного образца (в последнем случае выявлен- 
ный образец может быть распознан, но все еще искажен). 

В ряде работ имеются оценки, касающиеся числа образцов, которые 
можно сохранить в сети Хопфилда. Одной такой общей оценкой из 
{Haykin, 1994] является оценка 


М 
р ss 
м: 
характеризующая максимальное число образцов, которые могут быть со- 


хранены, если требовать правильного распознавания большинства образ- 
цов; М обозначает число элементов сети. 


4.2.1. Функция энергии 


В работе [Hopfield, 1984] Хопфилд доказал, что его сеть должна схо- 
диться к устойчивому набору значений активности, рассмотрев функцию 
энергии системы. В представленной нами форме сеть определяет необхо- 
димость изменения состояния элемента по пороговому значению, равному 
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J 


и Узм,. Из табл. 4.1 видно, что As; и Ум, имеют одинаковые 
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говорит 


энергии как функцию As. 


i 


Л 


Уи 


1 


С. 
первая строка данных таблицы 


AE = Аз) Хз 


изменение 


(т.е. десять случайных обновлений). Кадры следует рас- 
Е 


сматривать в порядке слева направо и сверху вниз 


~ 


Рис. 4.3. Соответствующий вводимой подсказке образец показан 
итераций сети 


в первом кадре в верхнем левом углу. Кадры представляют десять 
нулю, поэтому мы можем использовать упрощенную версию функции 


энергии Хопфилда, подобную той, которая приводится в [Haykin, 1994]: 
знаки, поэтому энергия при переходе от итерации к итерации всегда 


уменьшается. Например, 
о том, что если элемент находится в положительном состоянии и его 


комбинированный ввод больше нуля (т.е. положителен), то новое со- 
будет положительным, а изменение энергии таким образом будет от- 


стояние останется положительным и изменение состояния тоже 
рицательным. 


Если элемент } изменяет свое состояние на As 7? то изменение энергии 


будет равно 
Можно рассматривать 


Дискретная сеть Хопфилда 


Таблица 4.1. Изменения энергии при изменениях состояния элемента 


Старое ss;  Узм, Новое 5, As, Изменение 
энергии 
Положительное Положительное Положительное Положительное Отрицательное 
Положительное Отрицательное — Отрицательное — Отрицательное Отрицательное 
Отрицательное — Отрицательное Отрицательное — Отрицательное Отрицательное 
Отрицательное — Положительное Положительное Положительное Отрицательное 


4.3. Двунаправленная ассоциативная память 


Сетью, имеющей много общего с сетью Хопфилда, является двуна- 
правленная ассоциативная память (сеть ВАМ — Bidirectional Associative 
Memory), предложенная Коско (cm. [Kosko, 1988]). Сеть ВАМ является 
гетероассоциативной рекуррентной сетью. Сеть сохраняет пары образцов 
и может восстановить образец, когда ассоциированный с ним образец 
предлагается ей в качестве подсказки. В этой сети два слоя элементов — 
по одному для каждого из образцов пары — и оба слоя соединяются дву- 
направленными связями (т.е. активность может передаваться по связям 
в обоих направлениях) (рис. 4.4). 


oe 
O) 


a, 


Рис. 4.4. Двунаправленная ассоциативная память. Эле- 
менты слева представляют образцы размерности 4, 
а элементы справа — ассоциированные с ними образ- 
цы размерности 3 


Здесь мы рассмотрим только дискретную биполярную сеть ВАМ, но 
можно рассмотреть и непрерывные значения. Чтобы сохранить образец $ 
и ассоциируемый с ним образец t, рассматривается прямое произведе- 
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ние, определяющее весовые значения. Процедура точно такая же, как 
и всети Хопфилда, но теперь матрица уже не обязана быть квадратной, 
а диагональные элементы не обнуляются. Весовой матрицей для одной 
пары будет матрица 


\ = $. 


Г 


Чтобы сохранить несколько пар, все соответствующие произведения, оп- 
ределяющие весовые значения, складываются, точно так же, как это де- 
лается для сети Хопфилда. 

Процедура нахождения в памяти элемента подобна соответствующей 
процедуре сети Хопфилда. В следующем описании 1 обозначает один 
слой элементов, а } — ассоциированный слой элементов. 


e Устанавливаются значения активности элементов слоя i в соответ- 
ствии со значениями, задаваемыми входным образцом. 


e Распространяется активность Ha слой }. Комбинированный ввод 
элемента слоя } равен 


пег, = Уз, у 
i 
е Вычисляется новое состояние для каждого элемента слоя x 


1, = f (net ;). 


e Распространяется активность на слой i. Комбинированный ввод 
элемента слоя 1 равен: 


net; = У 5: $ 
] 


e Вычисляется новое состояние для каждого элемента слоя i: 
5; = f (net;) . 


e Это двустороннее распространение сигналов активности повторя- 
ется до тех пор, пока не будет достигнуто устойчивое состояние. 
Активность для каждого слоя определяется относительно некото- 
рой пороговой величины 0. | 

1, если пе, >6,, 
t, = f(net;) =11,, если net, =0,, 

—1, если пе, <@,, 
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|], если net; >6;, 
5; = f(net;) = 1 5;, если net; =0; 


—№ если net; < 9. 


Все элементы сети сначала имеют нулевые значения активности. Об- 
ратите внимание на то, что распространение может начаться с любого 
уровня, так как и $ может использоваться для вызова +, и, наоборот, — t 
может использоваться для вызова $. 


Пример 4.4. 


‚Я 


На рис. 4.5 показаны три образца (изображения цифр 1, 2 
и 3). Эти три образца должны быть сохранены бипо- 
лярной сетью ВАМ. Ассоциируемыми с ними образцами 
являются трехбитовые двоичные числа (конвертирован- 
ные в биполярную форму). Ассоциированные образцы пред- 
ставлены в табл. 4.2. Предложите весовые значения для 
этой сети. 


Покажите, что каждая ассоциация может быть вызвана 
из памяти. 


Рис. 4.5. Каждая цифра изображена на сетке 5 x 3. Пробел ко- 
дируется значением -1, а знак '+’— значением +1. Цифры 
представляются линейным массивом значений, получаемым 
при движении по сетке сверху вниз и слева направо 


Таблица 4.2. Цифры {1,2, 3}, ассоциированные с биполярными образцами 


Образец Ассоциированный образец 

1 = =: 4 

2 = = 

3 We eal 
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Решение 4.4. 
1. 


—1 1 1 
1 —1 — 
—1 1 —1 
| 1 —1 
1 1 1 
| 1 1 
1 —1 —] 
\ =| 1-1 -1. 1+] 1-1 1.- +| ЛЕВ, 
| =] =f 
1 1 1 
—1 I 1 
—} 1 1 
—1 1 -1 
| —1 —1 
| 1 1 
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|. 23-1 
1 -3 
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pea 
М = 33.1 
ee -1 
a A ae 
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-i 3° - 
ms ee ee 
м 
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2. Сначала в качестве входного рассмотрим образец, представ- 
ляющий оцифрованное изображение цифры “2”: 
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_ комбинированный ввод для слоя j | 
‘В: ОЕ bod, = - ЕЕ 
-l1 3 -1 


Pit 3 
Pa uD +3 
<3. В 
Be ee eee 
1-3. 1 
ЖЕ. 1 
| 
Ве SUR 
-1_ 3-1 
ag ae 
-l. 3 -l 
1 
С РА 
=[-21 27 -9]. 


С учетом порогового значения получаем [-1 1 -1], что и будет 
ассоциируемым образцом. 


Образец [-1 1 -1] можно использовать в качестве входного: 
комбинированный ввод для слоя | 


ay age 5] 
Е -5 
р: 3 
4a 3 3 
У 3 
о. 3 
seek Е Ta ae tls 
р с я fog a 
es | —5 
я Фа 3 
3—1 5 
ah ita, eS 5 
3 5 
В —1 
В ва 3 
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Оригинальный соответствующий изображению образец воссоз- 
дается после прохождения полученного вектора через функцию 
активности. 


Если процесс повторить для других векторов, будет видно, что 
вызываются все ассоциации. 


4.4. Автоассоциативное обратное 
распространение ошибок 


Стандартная сеть с прямой связью и обратным распространением 
ошибок, рассмотренная в главе 2, может быть обучена автоассоциатив- 
ным методом выполнению задач типа сжатия изображений. Этот метод 
дает возможность сделать целевой образец таким же, как и учебный об- 
разец, так что сеть учится воспроизводить в выходном слое то, что пода- 
ется ей на рассмотрение во входном слое. Базовая архитектура сети пока- 
зана на рис. 4.6. Сеть обучается стандартным образом, но целью обуче- 
ния является ассоциация каждого учебного образца с самим собой. 
После успешного окончания обучения сеть может работать как два меха- 
низма: первый слой весов может обеспечивать сжатие образца, а второй 
слой весов может восстанавливать полный образец из его сжатого пред- 
ставления. Конечно, в результате реконструкции могут быть и потери 
информации, поскольку сеть не будет в совершенстве создавать на вы- 
ходном уровне все учебные экземпляры. Образец сжимается после его 
подачи на вход сети и распространения сигналов, по которым вычисляют- 
ся значения активности скрытых элементов. Для сети с архитектурой типа 


а ов nies die ооо ии НЙ 


Выходной 
Одинаковое число Меньшее число элементов, 
элементов в слоях Pras в сравнении с другими слоями 
Скрытый 
Входной 


Рис. 4.6. Автоассоциативная сеть с прямой связью 
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~ 


20-10-20 (20 входных элементов, 10 скрытых элементов и 20 выходных 
элементов) отношением сжатия будет 2-1, ‘поскольку для данного вход- 
ного вектора сжатый вектор задается значениями активности скрытых 
элементов. Чтобы восстановить входной вектор, сжатый вектор предъяв- 
ляется скрытому слою, и активность распространяется на выходной слой. 

Иногда может оказаться выгодным обработать данные с помошью ав- 
тоассоциативной сети перед тем, как рассмотреть их с помошью другой 
сетевой модели (и даже перед тем, как выполнить их классификацию 
с помощью другой сети с прямой связью). Известно, например, что авто- 
ассоциативная сеть с прямой связью, имеющая один скрытый слой, вы- 
числяет по сути главные компоненты. Анализ' главных компонент явля- 
ется основным методом статистической обработки данных и использует- 
ся WIA Toro, чтобы удалить избыточность данных и провести 
кластеризацию. В результате анализа главных компонент происходит 
также декорреляция признаков векторов (признаки характеризуют поло- 
жение элементов), что иногда оказывается полезным при обучении дру- 
гой сети с прямой связью. Идея заключается в преобразовании учебных 
данных в некоторое сокращенное описание, где компонентами такого 
сокрашенного описания выступают скрытые элементы. 

Анализ главных компонент можно использовать для выполнения сжа- 
тия с потерями. Например, на рис. 4.7 показана некоторая совокупность 
двумерных данных. Через эту совокупность данных проведена новая пара 
осей, пересекающихся под прямым углом. Точки данных теперь могут 
быть выражены в координатах этих новых “главных осей”. Более длин- 
ная ось указывает направление наибольшего разброса или дисперсии 
данных. Если дисперсия в направлении более длинной главной оси со- 
ставляет 85% разброса данных, а в направлении второй оси — 15%, то 
85% дисперсии данных сохранится, даже если вторую главную координа- 
ту из рассмотрения исключить. Другими словами, если данные описать 
только в терминах наибольшего главного компонента, то в основном ин- 
формация о данных сохранится, но некоторая ее часть все же будет поте- 
ряна. Иногда в данных присутствует некоторая избыточность, как пока- 
зано на рис. 4.8. Точки данных размещаются на прямой х›=х,. Любая 
точка данных может быть выбрана в качестве единственной “главной ко- 
ординаты” без какой бы то ни было потери информации. Поэтому если 
данные выразить через такую главную координату, то каждый образец 
будет описан одним числом вместо двух. На первый взгляд, то, что об- 
разцы могут быть описаны одной координатой вместо двух (но только 
в случае, когда имеется избыточность, не забывайте!), может показаться 
странным. Ознакомьтесь тогда с табл. 4.3, в которой набор двумерных 
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точек описывается с помощью представления их значением одной коор- 
динаты. Трансформация двумерных образцов в одномерные происходит 
следующим образом: 


1 


ы = [1.414 4.243 5.657 11.314]. 


я 


1 
site 
4 4 
8 8 


Таблица 4.3. Примеры представления точек нь X2 = Х, значениями одной 
координаты 


x1 x2 Одно значение координаты 
1 1 1 414 

3 3 4.243 

4 4 5.657 

8 8 11.314 


Обратное отображение для 1.414 задается с помощью следующего 


выражения: 
[1.414] Т.Н. 
Bard 


Точно так же MOI Ут быть восстановлены и другие координаты. 


Первая главная ось 


x; 


Рис. 4.7. Анализ главных компонент может ис- 
пользоваться для представления данных 
с помощью нового набора координатных осей 
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x; 


Рис. 4.8. Эта прямая состоит из точек, опи- 
сываемых двумя координатными значениями, 
но может быть представлена и с помощью 
одной координаты (т.е. в одномерном виде) 


Более высокого показателя сжатия можно иногда достичь с помощью 
дополнительных скрытых слоев. Например, сеть с архитектурой 40-20-8- 
20-40 может обеспечить отношение сжатия 40 к 8, если, конечно, ее обу- 
чение пройдет успешно. 


4.5. 


Резюме 


Ассоциативная сеть действует подобно памяти. 
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Автоассоциация связывает образец с ним самим. Например, авто- 
ассоциативная память может использоваться для того, чтобы вос- 
становить истинную версию сохраненного образца по искаженной 
версии этого образца. 


Гетероассоциация представляет собой связывание двух разных об- 
разцов. Один образец может использоваться в качестве подсказки, 
по которой из памяти извлекается другой образец. 


Когда автоассоциативное обучение происходит путем пропускания 
сигналов через узкий канал типа скрытого слоя автоассоциатив- 
ной сети с прямой связью, происходит в некотором смысле сжа- 
тие данных. Сжатие может оказаться полезной формой предвари- 
тельной обработки данных перед использованием их для обучения 
сети с другой архитектурой. 
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e Сеть Хопфилда может использоваться для автоассоциации, a дву- 
направленная ассоциативная память — для гетероассоциации. 


e Весовые значения дискретной сети Хопфилда и двунаправленной 
ассоциативной памяти могут быть ‘найдены с помощью простых 
матричных вычислений, поэтому такие сети не требуют длитель- 
ного обучения. 


e От числа элементов в ассоциативной сети зависит число образцов, 
которые могут быть сохранены. 


4.6. Дополнительная литература 


Подробное обсуждение сети Хопфилда и автоассоциативной сети 


с обратным распространением ошибок имеется в книге [Haykin, 1994]. 


4.7. Упражнения 


a 


2. 


Определите весовые значения сети Хопфилда, соответствующие со- 
хранению образца [1 1 1 -1]. 


Для сети из упражнения | рассмотрите подсказку в виде входного 
образца [1 11-1] и проверьте, стабилизируется ли сеть на сохранен- 
ном образце. 
Повторите вычисления упражнения 2 для образца [—1 —1 1-1]. 
Сколько образцов можно вызвать из сети Хопфилда, если каждый со- 
храненный вектор имеет 10 элементов? 
(а) Определите весовые значения сети Хопфилда для сохранения сле- 
дующих образцов: 
[-l1 1 -1 - 1 - -1 -l], 
[Г -1 1 -1l НЕЕ -1]. 
(6) Проверьте устойчивость сети при предоставлении ей на вход в Ka- 
честве подсказок сохраненных образцов. 
(в) Проверьте устойчивость сети при предоставлении ей на вход в ка- 
честве подсказок следующих образцов: 
[-1 1 -1 - 1 -1 -1 1), 
[-l 1 1 -1 1 -1 -1 —-1]. 
Определите весовые значения сети Хопфилда для сохранения сле- 
дующих образцов: 


Упражнения 125 


[Г 1 -1 -1 1 -1 НЕ НИ, 
[-1 -1 1 -1 -1 -1 1 -И, 
{1 -1 -1 1 -1 1 -1 -1]. 
Проверьте устойчивость сети при предоставлении ей Ha вход в качест- 
ве подсказки первого сохраненного образца. 


к 


Определите сеть ВАМ для примера 4.4, но в качестве ассоциирован- 
ных образцов для изображений цифр возьмите следующие векторы. 


Образец Ассоциированный образец 


Сравните полученные результаты с результатами, представленными 
в описании примера 4.4. 
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Глава 5 


Рекуррентные сети 


Задача. Описание сетей с рекуррентными связями. 
Цели. Вы должны понять: 


для чего предназначены рекуррентные сети и в чем заклю- 
чаются их преимущества по сравнению с другими сетями 
при решении задач определенного типа; 

как для конкретной задачи построить сеть, не являющуюся 
рекуррентной, но эквивалентную рекуррентной по получае- 
мым на выходе результатам; 

как модифицировать алгоритм обратного распространения 
ошибок для его реализации в простой рекуррентной сети. 


Требования. Знакомство с материалом глав | и 2. 


5.1. Введение 


В этой главе дается краткий обзор некоторых структур, предназначен- 
ных для обработки последовательностей. Последовательность — это цепоч- 
ка образцов, имеющих отношение к одному и тому же объекту. Например, 
последовательность может состоять из букв, образующих слово, или из 
слов, образующих предложение. Иметь дело с последовательностями не так 
уж просто, поскольку они могут иметь разную длину. Например, число 
входящих в предложение слов может меняться в довольно широких преде- 
лах. Если учебным образцам позволить иметь любое число элементов, то 
сколько тогда должно быть входных элементов в сети? Одним из способов 
обработки предложений с помошью фиксированного числа входных эле- 
ментов является использование скользяшего окна, как показано на 
рис. 5.1. Недостатком этого подхода является то, что последовательность 
необходимо делить на сегменты, в результате чего зависимость между на- 
ходящимися далеко друг от друга словами теряется. Чтобы сразу обрабаты- 
вать все предложение, потребуется нейронная сеть с архитектурой, допус- 
кающей обработку самого длинного из ожидаемых предложений. Эта про- 
блема решается путем использования сети с рекуррентными связями. 
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большую КОСТЬ 


Рис. 5.1. Предложение “Большая собака нашла большую 
кость” подается на вход сети. Входной слой сети имеет два 
поля элементов, чтобы рассматривать в каждый момент 
времени два слова. До того как сети встретится последнее 
слов “кость”, ей придется четыре раза обработать по два 
слова (текущее плюс предыдущее) 


5.2. Обратное распространение во времени 


Сеть с обратным распространением ошибок, описанная в главе 2, яв- 
ляется сетью с прямой связью, что означает ограничение направления 
связей: все связи должны идти в одном направлении — от входного слоя 
к выходному. Но сеть с обратным распространением ошибок не обяза- 
тельно должна быть сетью с прямой связью, она может иметь 
и рекуррентные связи, когда элемент посылает сигналы себе или другим 
элементам того же слоя или более низких слоев. Фактически допусти- 
мым является любой вариант обратной связи. Обратную связь, задавае- 
мую рекуррентными связями, не следует путать с обратной связью оши- 
бок при корректировке весов. Обратная связь ошибок является частью 
процедуры корректировки весов, тогда как рекуррентная связь подает об- 
ратно значение активности, которое будет влиять на выход сети в тече- 
ние следующих итераций. 

Алгоритм работы рекуррентной сети с обратным распространением 
ошибок представляет собой непосредственную модификацию соответст- 
вующего алгоритма работы сети с прямой связью. Эта модификация 
опирается на утверждение, что для любой рекуррентной сети существует 
сеть с прямой связью, имеющая идентичное поведение. На рис. 5.2 пока- 
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зана сеть CO связями, по которым сигналы возвращаются обратно OT вы- 
ходного слоя к входному, а рис. 5.3 иллюстрирует работу этой сети в те- 
чение двух шагов во времени. Обратите внимание на то, что дополни- 
тельные слои с направленными вперед взвешенными связями дублируют 
направленные вперед связи рекуррентного варианта сети. Другими сло- 
вами, чтобы имитировать рекуррентную сеть, она дублируется для двух 
шагов выполнения во времени. 


Рис. 5.2. Рекуррентная сеть с обратным распространением ошибок 


В ходе обучения на вход сети подается образец и выполняется прямой 
проход. Для каждого шага времени рассматривается своя копия сети 
и для каждого шага времени вычисляются ошибки точно так же, как 
в стандартной сети с обратным распространением ошибок. Изменения 
весовых значений, вычисленные для каждого экземпляра сети, перед 
корректировкой суммируются. Наборы весовых значений всех экземпля- 
ров сети (или шагов времени) должны оставаться одинаковыми. 

В [Rumelhart ef a/l., 1986а] представлен ряд экспериментов с рекур- 
рентными связями. В одном из этих экспериментов происходит обучение 
сети выполнению задачи дополнения последовательности. Последова- 
тельность состоит из шести символов, причем первые два символа долж- 
ны быть буквами, выбираемыми из множества {А, В, С, О, Е}, а осталь- 
ные — целыми числами, выбираемыми из множества {1, 2, 3}. Первые две 
буквы определяют оставшуюся часть последовательности. Например, ес- 
ли “А” определяет последовательность “12”, а “С” — последовательность 
“13”, то вся последовательность, начи нающаяся буквами “АС”, должна 


иметь вид “АС1213”, а вся последо-вательность, начинающаяся буквами 
“АА”, — вид “AAI212”. 
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Рис. 5.3. Развернутая версия сети, показанной Ha рис. 5.2 


Сеть содержала пять входных элементов (по одному на каждую бук- 
ву), три выходных элемента (по одному на каждую цифру) и 30 скрытых 
элементов. Все скрытые элементы были связаны сами с собой и всеми 
остальными скрытыми элементами, и все выходные элементы были свя- 
заны сами с собой и всеми остальными выходными элементами. Обуче- 
ние осуществлялось в результате выполнения следующих шагов. 


Шаг 1.Для входного элемента, соответствующего первой букве, устанав- 
ливается значение активности, равное 1, а все остальные входные 
элементы переводятся в выключенное состояние. 


Шаг 2. Для входного элемента, соответствующего второй букве, устанав- 
ливается значение активности, равное 1, а все остальные входные 
элементы переводятся в выключенное состояние. 


Все входные элементы переводятся в выключенное состояние. 
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Шаг 3.B качестве целевого выходного значения рассматривается третий 
символ (т.е. первое число). 


Шаг 4. В качестве целевого выходного значения рассматривается четвер- 
тый символ (т.е. второе число). 


Шаг 5. В качестве целевого выходного значения рассматривается пятый 
символ (т.е. третье число). 


Шаг 6. В качестве целевого выходного значения рассматривается шестой 
символ (т.е. четвертое число). 


Все скрытые и выходные элементы в начале получали значения активно- 
сти, равные 0.2. Сеть обучалась на 20 последовательностях. Затем на пяти 
тестовых примерах было продемонстрировано, что сеть действительно могла 
завершить последовательности по заданным двум первым символам. Другой 
эксперимент демонстрировал, что последовательности успешно могли быть 
дополнены даже в случаях, когда имели место задержки при предъявлении 
сети первой и второй букв (например, “С, задержка, А, задержка, 1312”). 


Пример 5.1. 


Рассматривается полносвязная сеть с прямой связью и архитектурой 
3-2-2, имеющая рекуррентные связи: каждый скрытый элемент связан 
с самим собой и со всеми другими скрытыми элементами, и каждый 
выходной элемент связан с самим собой и со всеми другими выход- 
ными элементами. Изобразите схему такой сети и схему эквивалент- 
ной ей сети без рекуррентных связей для одного шага времени. Один 
шаг времени в данном примере означает обработку входного образца 
двумя скрытыми элементами и двумя выходными элементами. 


Решение 5.1. 


Соответствующие схемы показаны на рис. 5.4 и 5.5. 


Модели нейронных сетей, не имеющие ограничений на число и тип ре- 
куррентных связей, могут при первом рассмотрении показаться слишком. 
сложными. Сеть, обсуждаемая в следующем разделе, легче для понимания, 
поскольку оказывается простой модификацией стандартной сети с обратным 
распространением ошибок. Эта сеть, называемая простой рекуррентной се- 
тью, несмотря на ее примитивную архитектуру, используется очень широко. 

Модели нейронных сетей, не имеющие ограничений на число и тип ре- 
куррентных связей, могуг при первом рассмотрении показаться слишком 
сложными. Сеть, обсуждаемая в следующем разделе, легче для понимания, 
поскольку оказывается простой модификацией стандартной сети с обратным 
распространением ошибок. Эта сеть, называемая простой рекуррентной се- 
тью, несмотря на ее примитивную архитектуру, используется очень широко. 
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Рис. 5.5. Перечеркнутые связи соответствуют рекуррентным связям 
на рис. 5.4. Соответствующие два набора весовых значений связей 
между элементами скрытого и выходного слоев одинаковы 
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5.3. Простая рекуррентная сеть 


В своем докладе [Jordan, 1989] Джордан представил одну из наиболее 
ранних форм рекуррентной сети. Сеть Джордана имеет связи, идущие 
обратно от выходного к входному слою, и некоторые элементы входного 
слоя имеют связи, возврашающиеся обратно к этим элементам. Архитек- 
тура сети показана на рис. 5.6. Сеть способна обучиться выполнению за- 
дач, зависящих от последовательности состояний. Такая сеть может быть 
обучена с помощью алгоритма обратного распространения ошибок. 


План 


Рис. 5.6. Сеть Джордана 


Из-за рекуррентных связей в сети Джордана поведение сети формируется 
введенными ранее входными данными. Сеть обладает некоторыми свойства- 
ми краткосрочной памяти. Еще одной очень популярной рекуррентной се- 
тью с подобными свойствами краткосрочной памяти является так называе- 
мая простая рекуррентная сеть (сеть SRN — Simple Recurrent Network). 

В [Elman, 1990] было продемонстрировано, что сеть SRN может пред- 
сказать следующий элемент последовательности по текущему и предше- 
ствующему вводу. В сети SRN скрытые элементы имеют связи, направ- 
ленные обратно во входной слой, как показано на рис. 5.7. Развернутая 
версия сети SRN для трех шагов показана на рис. 5.8. Скрытые элементы 
составляют внутреннее редуцированное представление данных, предше- 
ствующих текушему вводу. Это редуцированное представление образует 
контекст, оказывающийся для определенных задач существенным. На- 
пример, третий элемент в последовательностях {110, 000, 101, 011} не Mo- 
жет быть однозначно предсказан по второму или первому элементам, 
рассматриваемым независимо. Но третий элемент зависит от совокупно- 
сти первого и второго элементов, рассматриваемых вместе. Первые два 
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элемента этих последовательностей соответствуют двоичным данным 
ввода для проблемы ХОБ, и Элман (Elman) продемонстрировал, что сеть 
SRN может быть обучена решению проблемы ХОК. 
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Рис. 5.7. Простая рекуррентная сеть. Число контекстных элементов 
равно числу скрытых элементов | 
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Рис. 5.8. Развернутая версия сети SRN, представленной Ha рис. 5.7 


В случае проблемы XOR сеть SRN обучается на длинной последова- 
тельности битов. В этой последовательности первый и второй биты свя- 
зываются операцией XOR, чтобы получить третий бит, четвертый и пя- 
тый биты связываются операцией XOR, чтобы получить шестой, и т.д. 
Сеть должна научиться генерировать следующий элемент последователь- 
ности. Вот пример ввода и вывода сети: 


ВВОД: 191000017 FEO THT Oi ..S 
paper. Оооо fT i... 
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В эксперименте сеть SRN, состоящая из одного входного элемента, 
двух контекстных элементов (следовательно, двух скрытых элементов) 
и одного выходного элемента, обучалась на последовательности 3000 би- 
тов. Результат обучения показал, что сеть выучила временную структуру 
последовательности, так как для каждого третьего бита квадрат ошибки 
должен оказаться малым. Существенное уменьшение величины ошибки 
вполне адекватно характеризует временную структуру последовательно- 
сти. Например, сеть всегда может пытаться связать операцией ХОК пре- 
дыдущие два бита, но правильность такого предсказания будет гаранти- 
ровать только каждый третий бит. Рассмотрим последовательность 
101110. Третий и шестой биты являются результатами применения 
операции ХОК к предыдущим двум битам, поэтому ошибка предсказания 
оказывается малой для третьего и шестого битов. 


5.3.1. Применение сети SRN 
Обучение простым правилам грамматики 


В работе [Cleeremans, 1993] представлено несколько интересных экс- 
периментов с сетями SRN. Одной из задач было обучение сети SRN 
грамматике Ребера (Reber), показанной на рис. 5.9. Эта грамматика схе- 
матически представляется в виде конечного автомата (автомата конечных 
состояний). С помощью такого автомата может генерироваться строка 
символов в соответствии с правилами указанной грамматики. Можно 
также проверить, будет ли такая строка грамматически правильной. 


Рис. 5.9. Конечный автомат для грамматики Ребера 
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Чтобы сгенерировать строку, выберите сначала узел В, затем — дугу, 
идущую к другому узлу. Каждый раз, когда дуга проходит через узел, за- 
писывается соответствующая этому узлу метка (символ). Когда будет дос- 
тигнута конечная вершина Е — из нее можно перейти только к выходу — 
строка обрывается. Чтобы некоторая строка оказалась грамматически 
правильной, необходимо породить эту строку в соответствии. с дугами, 
заданными в автомате. Ниже приведены примеры строк. 


ВРУРХТУРХ У УЕ, 
BPVPXVVE, 
BTXSE, 

BPVVE, 
BTSSXSE, 
BPTTTVVE. 


Мы повторим один из экспериментов Клеерманса (Cleeremans) с He- 
большими модификациями. Напомним, что целью является обучение се- 
ти SRN указанной грамматике. Используем шесть входных и шесть вы- 
ходных элементов, где каждый элемент представляет один символ. Эле- 
менты входного и выходного слоев размешены так, как показано на 
рис. 5.10. С помощью специальной программы случайным образом гене- 
рировались 20000 строк в соответствии с грамматикой Ребера (Клеерманс 
использовал 60000 строк). В ходе обучения во входной слой подавался 
один символ строки, а следующий символ рассматривался в качестве це- 
левого выхода. Для всех последовательностей контекстные элементы на- 
чинали обучение со значения 0.5. После прохождения первого символа 
через сеть, на вход сети подавался второй символ, а третий выполнял 
роль целевого выходного значения. Перед рассмотрением очередного 
ввода значения активности скрытых элементов копировались на контек- 
стные элементы. Процесс повторялся для каждого из символов последова- 
тельности, а вся процедура в целом была выполнена для каждого из 20000 
образцов. Норма обучения и коэффициент инерции были выбраны равны- 
ми 0.1, и при обучении сети были выполнены три прохода по всем образ- 
цам. Весовые значения обновлялись после рассмотрения каждого символа. 

Результаты обучения показывают, что сеть моделирует вероятность 
следования одного символа за другим. Например, в каждом узле грамма- 
тики Ребера одна из двух дуг может быть выбрана с равной вероятностью 
(учебные строки генерировались так, что любой путь выбирался с одина- 
ковой вероятностью). Интересная особенность данной грамматики заклю- 
чается в том, что каждый символ представляется двумя дугами, а следую- 
щее допустимое состояние зависит от того, по какой дуге осуществляется 
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Рис. 5.10. Элементы входного и выходного слоев 


переход. Например, за символом P, следующим за начальным состояни- 
ем, может последовать Т или У, но за другим Р в грамматике могут сле- 
довать только 5 или Х. Таким образом, за символом Р может следовать 
один из четырех различных символов, но в любой точке последователь- 
ности будут допустимыми только два из них. 

На рис. 5.11 показаны последовательные состояния всех элементов 
сети при обработке последовательности В РУРХ VV. Для каждого со- 
стояния высокую активность будут иметь два выходных элемента, по- 
скольку для следующего состояния имеется два возможных варианта. 
Начальное состояние В активизирует T и Р в выходном слое, поскольку 
именно они с равной вероятностью являются допустимыми последова- 
телями. Первый символ Р определяет возможными последователями 
Тиу, но, как и ожидалось, второй символ Р в качестве последователей 
указывает Х и 5. 

Для тестирования своей обученной сети SRN Клеерманс использовал 
20000 случайным образом сгенерированных в соответствии с граммати- 
кой строк, чтобы проверить, признает ли их сеть грамматически правиль- 
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ными. Сеть признала правильными все 20000 строк. Затем сеть бы- 
ла протестирована на множестве из 130000 строк, которые были сге- 
нерированы случайным образом, HO He обязательно по правилам 
грамматики. Точнее говоря, строка строилась с помощью последова- 
тельного случайного выбора одного из пяти символов (Т, $, Х, V, Р). 
Из 130000 строк 260 оказались грамматически правильными, а ос- 
тальные (99.8%) были грамматически неправильными. Сеть выполня- 
ла свою работу в совершенстве, отвергая недопустимые с точки зре- 
ния грамматики строки и признавая грамматически правильные. 
Сеть также правильно обрабатывала очень длинные строки (порядка 
100 символов). 


Обучение сложению чисел 


Теперь давайте рассмотрим использование сети SRN для сложения 
чисел. Для простоты мы ограничимся сложением только целых значений. 
Принимая восьмибитовое представление, число 1| будет двоичным 
00001011, а число 9 — двоичным 00001001. Сложение в двоичном виде 
выполняется так: 

00001011 


00001001. 
00010100 


Сложение двоичных чисел подобно сложению десятичных. Значе- 
ния разрядов складываются по столбцам по очереди, справа налево. 
Если сумма в столбце оказывается больше 1, в результат записывает- 
ся 0, а 1 переносится в следующий столбец. В каждый момент обра- 
батываются только две цифры, и их комбинации должны быть 
следующими: 


где в нижней строке приводится сумма двух цифр из верхних строк. 


Рис. 5.11. Значения активности элементов сети при обработке BPVPXVV. Пер- 
вые шесть элементов входного слоя представляют символы, а следующие три явля- 
ются контекстными элементами. Последними элементами входного и скрытого слоев 
являются элементы смещения, поэтому установленные для них значения оказывается 
всегда равными 1 
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Результат из нижней строки может быть интерпретирован как pe- 
зультат операции ХОК (операция исключающего “ИЛИ”) для двух 
суммируемых цифр. Перенос единицы происходит тогда, когда обе 
суммируемые цифры равны 1. Результатом операции АМО (операции 
“И”) для двух этих битов будет 1. Таким образом, сумма, которая 
должна быть записана, может быть получена с помощью логического 
элемента XOR, а перенос — с помощью логического элемента AND, 
как показано на рис. 5.12. Эта схема называется полусумматором, 
и, дополнив эту схему еще несколькими элементами логики, можно 
реализовать двоичное сложение в полной мере. Мы уже знаем, что 
нейронная сеть может быть обучена осуществлению операции XOR, 
а схему AND осуществить еше проше. Поэтому можно использовать 
модульную нейронную сеть, выполняющую сложение в двоичной 
системе счисления. Так как основу вычислений на уровне аппаратных 
средств образуют именно логические элементы, можно на основе 
элементарных схем нейронной сети создать подобные аппаратные 
средства, имитирующие обычный компьютер. Однако при моделиро- 
вании обычных аппаратных вычислительных средств с помощью ней- 
ронных сетей имеется особенность, состоящая в том, что придется 
искать решение, полученное в результате обучения. 


+ XOR Сумма 


х› 
Перенос 


Рис. 5.12. Логическая схема, называемая полусумматором 


Складывая большие числа (если мы не обладаем исключительными 
способностями), нам приходится использовать карандаш и бумагу, что- 
бы записывать результаты промежуточных стадий вычисления. Мы на- 
чинаем суммирование с крайнего столбца справа, записываем сумму 
первых двух разрядов и, если необходимо, отмечаем на бумаге единицу 
переноса (рис. 5.13). 
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+538 


Рис. 5.13. Сложение двух чисел с помощью карандаша и бумаги 


В статье [Noelle, Cottrell, 1995] описана реализация сумматора Ha ос- 
нове нейронной сети, в котором нет явного учета информации о перено- 
се из одного столбца в другой. Вместо этого, информация о переносе от- 
ражается состоянием сети. Авторы использовали два типа нейронных се- 
тей: простую рекуррентную сеть (сеть SRN) и сеть Джордана. Мы 
рассмотрим здесь сеть SRN, но аналогичная процедура использовалась 
и для сети Джордана. Базовая архитектура сети представлена на рис. 5.14. 


Запись Перенос Следующий Готово Результаты 


САО ey 3 FOP C9 


ВВОД КОНТЕКСТ 


Рис. 5.14. Сеть SRN для сложения цифр 


Элемент “запись” указывает, когда результат должен быть записан, 
элемент “перенос” — когда имеется информация о переносе, элемент 
“следующий” — когда должна быть представлена пара значений следую- 
щего разряда, а элемент “готово” — когда суммирование завершено. Шаги, 
выполняемые при сложении чисел 865 и 327, представлены в табл. 5.1. Во 
всех экспериментах использовались вычисления по основанию 4 (т.е. бит 
переноса возникал тогда, когда сумма двух цифр оказывалась большей или 
равной 4). Каждая цифра представлялась двумя элементами. 
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Таблица 5.1. Последовательность шагов при сложении 865 и 327 в сети $ВМ (рис. 5.14) 


Шаг 1-я цифра 2-я цифра Запись Перенос Следующий Готово Результат 


1 7 5 у 2 
2 7 5 и 

3 7 5 у 

4 2 6 у 9 
5 2 6 у 

6 3 8 у 1 
7 3 8 у 

8 3 8 у 

9 0 0 ыы 1 
10 0 0 у 


Учебные данные состояли из чисел, имеющих не более трех разрядов. 
Начальное обучение на малых случайных подмножествах полного учеб- 
ного набора данных дало слабые свойства обобщения: сеть просто за- 
помнила все учебные данные. Тогда был использован метод комбиниро- 
ванного обучения на подмножествах (так его назвали авторы), при котором 
сначала обучение проходит на случайном малом подмножестве учебных 
данных, затем размеры этого подмножества удваиваются, пока не оказы- 
вается представленным весь набор учебных данных. Результаты выгляде- 
ли впечатляюще. Сеть могла обобщить результаты обучения на все учеб- 
ные пары уже после рассмотрения только 8% всего набора данных. 
Больше того, после в некотором смысле “рафинированного” обучения 
(заключающегося в рассмотрении небольшого подмножества трудных 
учебных примеров), сеть могла использовать полученные знания для ре- 
шения задач, в которых использовались даже 14-разрядные числа. 

Ноель (Noelle) и Коттрелл (Cottrell) выяснили, чем отличается сеть 
Джордана от сети SRN. Сеть Джордана не могла выполнить задачу при 
внесении небольших изменений в операции вывода, когда информация 
уведомления о переносе задерживалась до завершения записи суммы 
следующего столбца. И сеть Джордана, и сеть SRN являются сетями 
с рекуррентной архитектурой, но сеть SRN непрерывно обновляет со- 
стояния, получаемые как внутренние представления. 

Анализируя состояния скрытых элементов, Ноэль и Коттрелл показали, 
что сеть SRN работала подобно конечному автомату (Т.е. рассмотренной вы- 
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ше структуре, моделирующей вычислительные устройства для представления 
грамматики). Известно, что с помошью сети SRN можно реализовать любой 
конечный автомат (см. [Kremer, 1995]). В принципе сеть SRN может оказать- 
ся полезной для моделирования многих типов вычислительных машин. При- 
менение сети SRN для решения ряда других задач рассматривается в главе 8. 


5.4. Резюме 


Сети, рассмотренные в этой главе, используют простые модификации 
алгоритма обратного распространения ошибок. Эти модификации дают 
возможность использовать рекуррентные связи. 


e Для любой рекуррентной сети имеется сеть с прямой связью, об- 
ладающая идентичным поведением. 

e Рекуррентные сети используются для обработки образцов, имею- 
щих переменную длину. Такие образцы переменной длины рас- 
сматриваются как последовательности: последовательность разби- 
вается на отрезки данных, и каждый отрезок подается на рассмот- 
рение сети на разных шагах. 

e Простые рекуррентные сети могут демонстрировать способность 
предсказывать следующие отрезки последовательности данных по 
ранее введенным данным. 


5.5. Дополнительная литература 


Книга [Cleeremans; 1993], посвященная безусловному обучению, со- 
держит ряд интересных примеров сетей SRN и впечатляющие результаты 
их применения. Другие примеры использования рекуррентных сетей бу- 
дут представлены в главе 8. 


5.6. Упражнения 


1. Сеть SRN имеет пять входных элементов, восемь контекстных элементов 
и четыре выходных элемента. Сколько весовых значений имеет эта сеть? 


2. Сеть SRN была обучена на множестве строк переменной длины, состоя- 
щих из символов. Символы всегда размещались по алфавиту. Например: 
BCD Еконец, 
ВСРЕЕС конец, 
E F G H конец. 


Упражнения | 143 


Сеть обучалась предсказывать следующий символ в последователь- 
ности. Не касаясь числа элементов, для сети SRN, выполняющей 
обработку последовательности “ЕЕ С H конец”, постройте схему 


эквивалентной сети с прямой связью. Укажите ввод и целевой вы- 
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вод на каждой стадии. 


Сколько входных элементов вы использовали для выполнения упраж- 
нения 2? Обоснуйте свой выбор. 


Сеть SRN обучается на последовательностях, состоящих из восьми 
символов и символа NIL: {В, В, А, Е, Т, М, $, 1, NIL}. Порядок, в котором 
появляются эти символы в последовательности, не имеет значения, но 
каждая последовательность должна содержать по крайней мере одну 
гласную и одну согласную и заканчиваться символом NIL. Символы 
последовательности подаются на рассмотрение сети SRN в порядке 
слева направо, но целевым выходом всегда является полная последо- 
вательность: сеть обучается предсказывать полную последовательность 
по уже предъявленным ей первым символам. 


(а) Предложите несколько учебных экземпляров. 


(6) Предложите архитектуру сети SRN и объясните, почему вы вы- 
брали именно такую архитектуру. 
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Глава 6 


Другие модели сетей 
и практические вопросы 


Задача. Описание других моделей сетей и обсуждение некоторых 
практических вопросов. 


Цели. Вы должны понять: 


что.такое метод модельной “закалки” и как он используется 
в нейронных сетях; 

принципы построения вероятностной нейронной сети, что- 
бы иметь возможность реализовать такую сеть в программе 

электронных таблиц; 

что такое “машина Больцмана”; 

какие проблемы возникают при использовании нейронных 

сетей. 


Требования. Знакомство с материалом глав 1—5. Знание элементарных 
основ статистики. 


6.1. Введение 


В предыдущих главах были рассмотрены модели, лежащие в основе 
технологии использования нейронных сетей. Целью данной главы явля- 
ется рассмотрение некоторых других моделей и некоторых практических 
вопросов, возникающих при использовании нейронных сетей. Глава на- 
чинается с раздела о моделях сетей, в которых применяются статистиче- 
ские методы. Основным объектом рассмотрения будет вероятностная 
сеть, а метод модельной “закалки” и машина Больцмана будут рассмот- 
рены только на самом начальном уровне, чтобы просто информировать 
читателя о существовании таких объектов. Этот раздел завершается: при- 
мером модульной архитектуры, в основу которой положены модели, 
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представленные в предыдущих главах. Мы стремились показать, как 
можно создавать новые модели, и дать читателю понять, что иногда ре- 
шения проблем, кажущихся на первый взгляд практически неразреши- 
мыми, все же существуют. 


6.2. Сети, использующие статистический подход 


До сих пор все рассмотренные нами модели нейронных сетей исполь- 
зовали детерминированные алгоритмы обучения. Слово 
“детерминированные” здесь означает, что при необходимости обновле- 
ния весовых значений или значения активности элемента соответствую- 
щие величины изменений могут быть определены в результате непосред- 
ственного прямого вычисления. Даже в сети Хопфилда, где обновляемый 
элемент выбирается случайно, сами изменения являются детерминиро- 
ванными, поскольку если элемент уже выбран, новое значение его ак- 
тивности может быть вычислено вполне однозначно. В противополож- 
ность этому, для стохастического алгоритма обучения в любой момент 
времени мы остаемся в неведении относительно того, как изменится со- 
стояние сети (“состояние” в данном случае означает набор текущих весо- 
вых значений и активность элемента). Другими словами, по информации 
о текущем состоянии предсказать следующее состояние оказывается не- 
возможным. Например, при использовании стохастического алгоритма 
обновления состояния элемента в сети Хопфилда для принятия решения 
о том, должен данный элемент перейти в новое вычисленное состояние 
или нет, используется функция распределения вероятностей. Поэтому 
даже когда элемент выбран для обновления, непосредственного обновле- 
ния его состояния может и не произойти. Но, хотя мы и не можем ска- 
зать, как стохастическая сеть будет реагировать в каждый конкретный 
момент времени, мы в общем на самом деле знаем, как будет вести себя 
сеть по прошествии достаточно долгого периода времени. 


6.2.1. Метод модельной “закалки” 


Метод модельной “закалки” является методом, часто используемым 
при решении проблем оптимизации. Решение рассматриваемой пробле- 
мы представляется в виде решения задачи минимизации некоторой 
функции стоимости. Функция стоимости определяется в терминах гло- 
бальной энергии сети. Например, определенная стоимость соответствует 
каждому маршруту, который принимает решение пройти продавец, чтобы 
посетить своих клиентов в разных городах. В данном случае стоимость 
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может быть выражена в терминах расстояния, которое предстоит преодо- 
леть, и тогда функция стоимости возвратит длину выбранного маршрута. 
Маршруты с меньшим расстоянием будут иметь меньшую стоимость. 
Самым оптимальным маршрутом в данном случае будет маршрут наи- 
меньшей длины. Иногда невозможно найти оптимальное решение, тогда 
следует искать разумно оптимальное решение. 

Метод модельной “закалки” базируется на аналогии с процессом за- 
калки металла. Когда металл подвергается закалке, он нагревается почти 
до точки плавления, а потом медленно охлаждается до комнатной темпе- 
ратуры. Процесс закалки делает металл более гибким, так что становится 
возможным придать ему нужную форму без изломов. Когда металл на- 
грет до высокой температуры, атомы двигаются хаотически. Если металл 
быстро охладить, атомы застынут в случайных положениях. Если же ме- 
талл, напротив, охлаждать медленно, атомы будут стремиться выстроить- 
ся регулярным образом. Поэтому основой всего процесса является управ- 
ление графиком снижения температуры. 

Аналогию с функцией оптимизации иллюстрируют рис. 6.1 и 6.2. На 
рис. 6.1 показана кривая, заданная некоторой гипотетической функцией 
одной переменной. Эта функция не является гладкой и имеет несколько 
(локальных) минимумов. Процедура для нахождения глобального мини- 
мума является очень простой. Сначала выбирается диапазон, в котором 
будет оцениваться функция. Значения функции оцениваются в некото- 
ром числе случайно выбираемых точек, при этом запоминается наи- 
меньшее из них. Диапазон затем уменьшается, и значения функции оце- 
ниваются снова в некотором числе случайно выбираемых точек. Снова 
сохраняется наименьшее из этих значений. Процесс повторяется снова 
и снова с постепенным уменьшением диапазона. 

Выбор диапазона и его сокращение аналогичен установке изначально 
высокой температуры и постепенному уменьшению этой температуры на 
последующих стадиях. Сначала точка может находиться везде без ограни- 
чений, “прыгая” от одного конца кривой к другому, поскольку диапазон 
изначально выбирается большим. Опять же, это напоминает хаотическое 
движение атомов металла при высокой температуре. 

Еще одним применением метода модельной “закалки” является обход 
локальных минимумов. Детерминированные алгоритмы типа алгоритма 
обратного распространения, использующие метод градиентного спуска, 
часто приводят к локальным минимумам. Попав в такой минимум, сеть 
не может больше двигаться по поверхности ошибок к более оптимально- 
му решению. Алгоритмы, подобные градиентному спуску, всегда пыта- 
ются продвинуться вниз, чтобы уменьшить величину полной ошибки, но 
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f(x) 


Локальные Глобальный 
минимумы минимум 


НА. 


Рис. 6.1. Локальные минимумы и глобальный минимум 


иногда желательно что-то и проигнорировать, чтобы открылись возмож- 
ности для дальнейшего прогресса. Метод модельной “закалки” сначала 
ухудшает работу сети, чтобы потом ее усовершенствовать. Например, при 
оценке точки на кривой эта точка никогда не игнорируется, если для нее 
работа сети улучшается, но иногда точка может использоваться, даже ес- 
ли для нее сеть работает не так эффективно. 

Единого и окончательного алгоритма модельной “закалки” нет, но 
принцип, на котором базируется метод модельной “закалки”, заложен 
в основу алгоритма Метрополиса (Metropolis). Основной процедурой 
этого алгоритма является случайный выбор части системы для изменения 
(например, компонента вектора). Изменения всегда принимаются, если 
уменышается глобальная энергия системы, а если наблюдается рост энер- 
гии, то изменения принимаются с вероятностью р, задаваемой формулой 


ДЕ 
= exp} -— |, 6.1 
Р ( т (6.1) 
где АЕ — изменение энергии, а Т обозначает температуру. 


Пример алгоритма минимизации функции 


Рассмотрим простой алгоритм модельной “закалки” для минимиза- 
ции действительнозначной функции f(x) двоичного вектора x. Предла- 
Гаемое ниже представление процедуры аналогично представлению 
в [Geman, Hwang, 1986]. 
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Точки, проверенные при высокой температуре 


Точки, проверенные при средней температуре 


> Точки, проверенные при низкой температуре 


ASE EE 


Низкая температура 


ЕАН НАААКЛНИЫЩЕ 


Средняя температура 


Высокая температура 


Рис. 6.2. Нахождение глобального минимума с помощью метода модельной 
“закалки” 


Случайным образом выбирается один элемент двоичного вектора, 
и выбранный бит переключается (Т.е. 0 заменяется Ha 1, а 1 — на 0). 
Функция оценивается с той целью, чтобы увидеть, какое значение долж- 
но быть возвращено, если принять предложенное изменение 
(переключение бита), и вычисляется соответствующее изменение энер- 
гии. Если энергия уменьшается, изменение принимается, иначе измене- 
ние принимается с вероятностью, заданной равенством (6.1). Формально 
процедура выглядит следующим образом. 


1. Случайным образом выбираются начальный вектор х и начальное 
значение Т. 


2. Создается копия х с именем X,,y и случайным образом выбирается 
компонента х„.„ Для изменения. Бит выбранной компоненты пере- 
ключается. 
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3. Вычисляется изменение энергии. 


Если изменение энергии меньше нуля, устанавливается X=X,,, . 
Иначе с помошью функции однородного распределения плотности 
вероятностей выбирается случайное число между 0 и 1. Если случай- 
ное число меньше, чем ехр(-АЕ/Т) , устанавливается X=X,,, . 


5. Если было выполнено заданное число (М) изменений вектора х, для 
которых значение { уменьшилось, или было выполнено М измене- 
ний х с момента последнего изменения температуры, то устанавли- 
вается T=aT. 


6. Если минимальное значение f не уменьшается уже в течение некото- 
рого определенного фиксированного числа L последних итераций, то 
процесс останавливается, иначе происходит возврат к п. 2, и вычис- 
ления продолжаются. 


Здесь М меньше М, а L обычно намного больше М. Понижение темпера- 
туры управляется константой ©, значение для которой, как правило, вы- 
бирается из диапазона от 0.8 до 0.9999. Начальное значение Т выбирается 
так, что для всех изменений энергии имеет место неравенство 
exp(—AE/T) > 0.9999 . 


Машина Больцмана 


Машина Больцмана, предложенная в [Ackley et a/., 1985], представляет 
собой нейронную сеть, использующую идею модельной “закалки” для 
обновления состояния сети. В своей базовой форме машина Больцмана 
является сетью Хопфилда (см. главу 4), использующей для обновления 
состояния элемента сети стохастический процесс. В предлагаемом здесь 
представлении состояния активности являются биполярными (т.е. харак- 
теризуются значениями +1 и -1). Энергия сети Хопфилда была определе- 
_ на в главе 4 следующей формулой: 


| 
бы FLL Ls Simi » 
7 3 


где $ обозначает состояние элемента сети. Если элемент } изменяет со- 
стояние на величину As; , то изменение энергии будет равно 


i 


Изменение энергии может также быть выражено в виде 
AE = -25, У ум, с 
i 
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Это легко доказать, рассматривая возможные изменения состояния эле- 
мента. Если состояние 5 j В данный момент равно -1 и оно изменяется 
к значению +1, изменение будет равно +2 или -25 ie Если состояние s j 
в данный момент равно +1 и оно изменяется к значению -1, изменение 
будет равно —2 или -—25 je Для вычисления вероятности принятия пред- 


ложенного изменения состояния обычно используется функция-сигмоид: 
1 


teen -22) 
1+exp| -— 
T 


Поэтому вероятность перехода элемента в новое состояние оказывает- 


ся равной: 


1 


р = (6.2) 


Di SiMy 
1+exp} 25, ise 

Машина Больцмана использовалась для решения ряда проблем опти- 
мизации, включая проблему коммивояжера (нахождение оптимального 
маршрута между несколькими городами). 

Машина Больцмана может иметь и скрытые элементы. Видимые эле- 
менты (т.е. элементы, используемые для сопряжения с внешней средой) 
могут быть разделены на входные и выходные. Пример соответствующей 
архитектуры показан на рис. 6.3. Все элементы имеют двунаправленные 
связи со всеми другими элементами, кроме элементов входного слоя, ко- 
торые не связаны непосредственно с элементами выходного слоя. Сеть 
с такой архитектурой можно подвергнуть управляемому обучению. В ходе 
обучения входные и выходные элементы закрепляются (задаются вход- 
ным вектором и ассоциированным с ним выходным вектором). По за- 
вершении обучения закрепляются только входные элементы, и сеть вы- 
полняет некоторое число итераций до тех пор, пока в результате не уста- 
новятся значения выходных элементов. 

Процесс обучения управляемой сети Больцмана разделяется на две 
фазы: фазу фиксации, в ходе которой входные и выходные элементы за- 
крепляются входным и целевым образцами, и фазу свободного выполне- 
ния, в ходе которой закрепляются только входные элементы. Сетевая 
статистика собирается на протяжении обеих фаз и используется затем 
для того, чтобы обновить весовые значения. 

Вес связи между элементами ги j корректируется в соответствии 


с формулой 
Aw, = П(ру-ру), 
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Входной слой Выходной слой 


Рис. 6.3. Пример машины Больцмана с входным и выходным слоями. В данном случае 
сеть имеет одинаковое число входных и выходных элементов и может использоваться 
для автоассоциации 


где р; обозначает корреляцию между элементами i и } в ходе фазы фик- 
сации, а р; — корреляцию в ходе фазы свободного выполнения; 
в нашем случае корреляция означает вероятность одновременного нахо- 
ждения двух элементов во “включенном” состоянии. Мы не будем раз- 
бираться в деталях алгоритма, но, по сути, здесь для каждой пары вход- 
ных и выходных образцов закрепляются видимые элементы и выполняется 
модельная “закалка”. Для каждого уровня температуры происходит обнов- 
ление состояний скрытых элементов в соответствии с правилом вероятно- 
стей, представленным равенством (6.2). Для конечной температуры собира- 
ется статистика, позволяющая оценить корреляции ру. Процедура повто- 
ряется для фазы свободного выполнения, по завершении которой весовые 
значения обновляются. Весь процесс повторяется до тех пор, пока измене- 
ния весовых значений не прекратятся (Т.е. до того, как сеть сойдется). 


6.2.2. Вероятностные нейронные сети 


В этом разделе мы рассмотрим сеть, которую можно использовать для 
классификации образцов и которая называется вероятностной нейронной 
сетью (сеть РММ — Probabilistic Neural Network). Сеть РММ на самом де- 
ле представляет собой параллельную реализацию давно известных стати- 
стических методов. В работе [Specht, 1990] было показано, как для клас- 
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сификации образцов можно использовать нейронную сеть, в которой 
реализуются статистические методы. Прежде чем рассмотреть детали ар- 
хитектуры такой сети, выясним принципы ее работы. 

В сети РММ образцы классифицируются на основе оценок их близо- 
сти к соседним образцам. Расстояние до соседних образцов является 
важным фактором при классификации нового образца, но важными яв- 
ляются и особенности распределения соседних образцов. Статистические 
методы используют ряд критериев, на основе которых принимается ре- 
шение о том, к какому из классов отнести еще неклассифицированный 
образец. Взгляните на рис. 6.4. Одним из методов, на основе которого 
можно принять решение о классе нового образца, является вычисление 
центроида каждого класса (т.е. усредненной характеристики размещения 
всех образцов в классе). Такой метод прекрасно подходит для распреде- 
лений, подобных показанному на рис. 6.4а, но может приводить к ошиб- 
кам классификации при распределениях, подобных показанным на 
рис. 6.46. Альтернативный простой и часто применяемый критерий клас- 
сификации основан на использовании “ближайшего соседа”: для неклас- 
сифицированного образца ищется ближайший образец с известным клас- 
сом, и неклассифицированный образец относится к тому же классу. Но, 
опять же, такой метод тоже не всегда работает, что иллюстрирует 
рис. 6.4в. Более “изощренные” методы в дополнение к рассмотрению 
расстояния учитывают плотность распределения соседних образцов. 


Рис. 6.4. Не использующие управление методы классификации точек. В случае а неиз- 
вестный экземпляр, обозначенный знаком “?”, кажется принадлежащим классу *; 
в этом случае метод центроида правильно определяет класс. В случае 6 неизвестный 
экземпляр кажется принадлежащим классу *; в этом случае метод центроида даст 
неверный результат. В случае в неизвестный экземпляр кажется принадлежащим клас- 
су +: ближайший “сосед” этого экземпляра не является представителем класса *. 
В данном случае правильная классификация зависит от учета особенностей распреде- 
ления соседних образцов | 
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В основу классификации в сети РММ положено использование ме- 
тодов Байеса (Bayes). Идея состоит в том, что для каждого образца 
можно принять решение на основе выбора наиболее вероятного класса 
из тех, которым мог бы принадлежать этот образец. Такое. решение 
требует оценки функции плотности вероятностей для каждого класса. 
Эта оценка получается в результате рассмотрения учебных данных. 
Формальным правилом является то, что класс с наиболее плотным рас- 
пределением в области неизвестного экземпляра будет иметь преиму- 
щество по сравнению с другими классами. Точно так же будет иметь 
преимущество и класс с высокой априорной вероятностью или высокой 
ценой ошибки классификации. Для двух классов А и В в соответствии 
с данным правилом выбирается класс А, если: 


hacafa(x) > ИвсвЛв(Х) , 


где h обозначает априорную вероятность, с — цену ошибки классифика- 
ции, а Кх) — функцию плотности вероятностей. Вообще говоря, оценка 
стоимости ошибки классификации требует хорошего знания приложе- 
ния, но. во многих приложениях цена ошибки классификации и априор- 
ные вероятности выбираются одинаковыми для всех классов. 

Игнорирование цены ошибки и априорных вероятностей все же не 
избавляет от необходимости оценки функции плотности распределе- 
ния вероятностей. Оценить эту функцию можно с помошью метода 
Парцена (Parzen), в котором используется весовая функция, имеющая 
центр в точке, представляющей учебный образец. Такая весовая 
функция называется функцией потенциала или ядром. Чаше всего 
в качестве ядра используется функция Гаусса. Форма этой функции 
в случае одной переменной показана на рис: 6.5. Для двух перемен- 
ных (т.е. в двумерном случае) функция имеет форму колокола, как 
показано на рис. 6.6. 


—1.5 —] —0.5 0 0.5 1 1.5 


Рис. 6.5. Функция Гаусса одной переменной 
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Рис. 6.6. Функция Гаусса двух переменных 


Чтобы построить функцию распределения класса, для каждого 
учебного вектора рассматривается функция Гаусса с центром в точке, 
соответствующей этому вектору. Затем функции Гаусса для всех век- 
торов суммируются, в результате чего получается нужная функция 
распределения. Оценка функции распределения в одномерном случае 
для данных, принадлежащих одному классу, показана на рис. 6.7. 
На этот раз использовалась более простая форма функции Гаусса, 
а именно: 

< —Их-х, [|| 


g(x) = У ехр = 


i=l 
Параметр с задает ширину функций и определяет их влияние, что иллю- 
стрируется на рис. 6.7—6.9. 

Пример 6.1. 


Имеется два класса данных одной переменной, как показано на 
рис. 6.10. Для образца, размещенного в точке 0.2, класс не известен. 
Используя функцию распределения с гауссовым ядром, определите 
класс, из которого взят указанный образец. 


Решение 6.1. 


Значение для с принимается равным 0.1. В табл. 6.1 показаны ре-. 
зультаты оценки плотности распределения вероятностей. Хотя неиз- 
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вестный экземпляр находится ближе всего к точке из класса A, вы- 
числения заставляют отдать предпочтение классу В. Причиной, по 
которой В оказывается предпочтительнее, является высокая плот- 
ность точек этого класса около значения 0.35. 
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Рис. 6.7. Оценка функции распределения, полученная в виде суммы функций Гаусса 
с центрами в точках, соответствующих данным имеющихся образцов; здесь в = 0.1 
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Рис. 6.8. Оценка, подобная показанной на рис. 6 7, HO для o = 0.3. Такая ширина оказы- 
вается слишком большой и есть опасность, что классы окажутся размытыми (что означа- 
ет высокую вероятность ошибок классификации) 
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Tr 


Рис. 6.9. Оценка, подобная показанной Ha рис. 6 7, но для o = 0.05. Если ширина пиков 
становится слишком малой, есть опасность ухудшения свойств обобщения: допуски во- 
круг учебных образцов оказываются слишком маленькими 


-1.0000 -0.5000 0.0000 0.5000 1.0000 


Рис. 6.10. Неизвестный экземпляр, классифицируемый с помощью функции плотности 
распределения вероятностей (см. пример 6.1) 


Пример модульной нейронной сети | SBF 


Таблица 6.1. Результаты вычисления iis ca плотности распределения вероятностей 
для примера 6.1. 


Класс Учебный образец Расстояние до неизвестного — Плотность распределения 


А -0.2000 0.1600 0.0000 
А -0.5000 0.4900 0.0000 
А -0.6000 0.6400 0.0000 
А ~0.7000 0.8100 0.0000 
A -0.8000 1.0000 0.0000 
А 0.1000 0.0100 0.3679 
0.3679 

В 0.3500 0.0225 0.1054 
B 0.3600 0.0256 0.0773 
B 0.3800 0.0324 } 0.0392 
B 0.3650 0.0272 0.0657 
В 0.3550 0.0240 0.0905 
В 0.4000 0.0400 0.0183 
В 0.5000 0.0900 0.0001 
B 0.6000 0.1600 0.0000 
В 0.7000 0.2500 0.0000 
0.3965 


Архитектура нейронной сети РММ 


Пример архитектуры сети для решения простой задачи показан на 
рис. 6.11. Задачей входного слоя является распределение данных вход- 
ного образца для слоя образцов. В данном случае каждый входной набор 
данных имеет четыре признака. Слой образцов имеет по одному элемен- 
ту для каждого образца из набора учебных данных. Входной слой и слой 
образцов образуют полносвязную структуру. Для входящих в элемент 
слоя образцов связей весовые значения устанавливаются равными эле- 
ментам соответствующего вектора-образца. Например, для первого эле- 
мента слоя образцов значение его первого входящего веса будет установ- 


158 Глава 6. Другие модели сетей и практические вопросы 


лено равным значению первого элемента первого вектора-образца, 3Ha- 
чение второго входящего веса — второму элементу вектора и т.д. Актив- 
ность элемента слоя образцов будет равна 


— .. — . 2 
O. a Хи)” (6.3) 


где х обозначает неизвестный входной образец. В этом выражении ис- 
пользуется квадрат евклидового расстояния от неизвестного экземпляра 
до элемента слоя образцов. 


Выходной слой 


I(x) 


Слой суммирования 


Рис. 6.11. Пример архитектуры сети РММ 


Слой суммирования имеет по одному элементу для каждого класса из. 
учебного множества данных. К любому элементу слоя суммирования идут 
связи только от элементов слоя образцов, принадлежащих соответствующему 
классу. Весовые значения связей, идущих от элементов слоя образцов 
к элементам слоя суммирования, фиксируются равными 1. Элемент слоя 
суммирования просто суммирует выходные значения элементов слоя образ- 
цов. Эта сумма дает оценку значения функции плотности распределения Be- | 
роятностей для совокупности экземпляров соответствующего класса. Выход- 
ной элемент представляет собой дискриминатор пороговой величины, указы- 
вающий элемент слоя суммирования с максимальным значением активности 
(т.е. указывает класс, к которому принадлежит неизвестный экземпляр). 
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Для сети РММ не требуется обучения в том смысле, какое требуется 
для сетей с обратным распространением ошибок, так как все параметры 
сети РММ (число элементов и значения весов) определяются. непосредст- 
венно учебными данными. 

Процедура для использования сети РММ является относительно про- 
стой. Архитектура сети определяется структурой учебных данных: 


» число входных элементов равно числу признаков; 
» число элементов слоя образцов равно числу учебных образцов; 
е число элементов слоя суммирования равно числу классов. 


Первый слой весовых значений определяется учебными образцами. 
Для второго слоя все значения устанавливаются равными единице. Весо- 
вые значения конечного слоя устанавливаются так, чтобы на выходе рас- 
познавался элемент слоя суммирования с наибольшим значением актив- 
ности. Для элементов слоя образцов необходимо выбрать подходящую 
функцию активности. Как правило, используется ядро Гаусса в виде, по- 
казанном в выражении (6.3). Значение с задает ширину функции актив- 
ности. Значение с оказывается очень важным, поэтому чаще всего оно 
подбирается в результате эксперимента. 

После того как сеть построена, неизвестный экземпляр можно подать 
на вход сети, и в результате прямого прохода через сеть выходной слой 
укажет класс, к которому, вероятнее всего, принадлежит образец. 

Данное здесь представление сети РММ требует вычисления евклидо- 
вого расстояния от неизвестного экземпляра до всех учебных образцов. 
Если все входные векторы имеют единичную длину, то функция актив- 
ности для элемента слоя образцов может быть представлена в форме, со- 
держащей более удобную для использования сумму произведений: 

У хим, ны | 
|. 
on 


О; = exp 


Пример 6.2. | 


На рис. 6.12 показаны состоящее из трех классов множество учебных 

точек и неизвестный экземпляр. Нормализуйте данные ввода к еди- 
ничной длине и, используя сеть РММ, найдите класс, к которому. 
следует отнести неизвестный экземпляр. 


Решение 6.2. 


Нормализованные векторы показаны на рис. 6.13. В табл. 6.2 представ- 
лены учебные данные до и после нормализации. В табл. 6.3 представлен 
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неизвестный образец. В табл. 6.4 показаны результаты прохода через 
сеть с целью классификации вектора неизвестного образца. Значение 
с равно 0.1. Вычисления помешают неизвестный образец в класс А. 
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Рис. 6.12. Неизвестный экземпляр для классификации с помощью сети РММ 
(см. пример 6.2) 
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Рис. 6.13. Результат нормализации векторов, показанных Ha рис. 6.12 
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Таблица 6.2. Нормализованные учебные данные 


| Ненормализованный вектор Нормализованный вектор 
| xy xX x Х 
3.0000 | 5.0000 0.5145 0.8575 
4.0000 4.0000 0.7071 0.7071 
3.0000 4.0000 0.6000 0.8000 
5.0000 6.0000 0.6402 0.7682 
4.0000 6.0000 0.5547 0.8321 
4.0000 5.0000 0.6247 0.7809 
7.0000 2.0000 0.9615 0.2747 
7.0000 3.0000 0.9191 0.3939 
8.0000 2.0000 0.9701 0.2425 
8.0000 3.0000 0.9363 0.3511 
9.0000 4.0000 0.9138 — 0.4061 
1.0000 -1.0000 0.7071 -0.7071 
1.0000 -2.0000 0.4472 -0.8944 
2.0000 -2.0000 0.7071 -0.7071 
3.0000 -2.0000 0.8321 -0.5547 
3.0000 -3.0000 0.7071 -0.7071 


_Таблица 6.3. Неизвестный экземпляр 


Ненормализованный Нормализованный 
x) x2 м x2 
5.8000 4.4000 0.7967 0.6044 


Таблица 6.4. Вычисления сети РММ для классификации неизвестного экземпляра, 
представленного в табл. 6.3 


Элемент слоя м’ и Активность Активность элемента 
образцов слоя суммирования 
4 0.5145 0.8575 0.0008 


he 0.7071 0.7071 0.3950 
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Окончание табл. 6.4 


Элемент слоя и’ и Активность Активность элемента 
образцов слоя суммирования 
3 0.6000 0.8000 0.0213 

4 0.6402 0.7682 0.0768 

5 0.5547 0.8321 0.0040 

6 0.6247 0.7809 0.0480 0.5459 

7 0.9615 0.2747 0.0011 

8 _ 0.9191 0.3939 0.0516 

9 0.9701 0.2425 0.0003 

10 0.9363 0.3511 0.0153 

11 0.9138 0.4061 0.0706 0.1389 

12 0.7071 0.7071 0.0000 

13 0.4472 -0.8944 0.0000 

14 0.7071 -0.7071 0.0000 

15 0.8321 -0.5547 0.0000 

16 0.7071 -0.7071 0.0000 0.0000 


Сети РММ могут быть более сложными, чем представленная здесь 
сеть. Например, для каждого входного признака можно использовать 
разные значения с. Таким образом оказывается возможным в значитель- 
ный степени контролировать форму классификационной поверхности, 
соответствующей учебным образцам. 

Сети РММ очень удобно использовать для классификации. Они быст- 
ро обучаются, допускают наличие ошибочных данных и обеспечивают 
полезные результаты даже на малых наборах учебных данных. Но сети 
РММ оказываются весьма требовательными в отношении ресурсов. Ре- 
шение некоторых проблем требует сотен и даже тысяч учебных образцов, 
в результате чего классификация каждого неизвестного экземпляра по- 
требует немало времени. Однако необходимо помнить, что если сеть реа- | 
лизована в виде аппаратных средств, то вычисления чаще всего выпол- 
няются параллельно. 
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Сеть РММ не является столь общей, как некоторые другие нейронные ce- 
ти. Так, в своей базовой форме сеть РММ ограничивается задачами класси- 
фикации, в отличие от многослойной сети с прямой связью и обратным рас- 
пространением ошибок, которая может моделировать отображение общего 
вида. Тем не менее классификация требуется во многих задачах, а классифи- 
кацию сети РММ выполняют очень хорошо. Не случайно в [Masters, 1995] ав- 
тор заявляет, что сеть РММ является его любимой нейронной сетью. 


6.3. Пример модульной нейронной сети 


Сеть BP-SOM представляет собой сеть, объединяющую многослойную 
сеть с прямой связью (сеть МЕМ — Multilayered Feedforward Network), 
обученную по алгоритму обратного распространения ошибок 
(backpropagation), и самоорганизующуюся карту признаков (сеть SOM — 
Self-Organizing Map). Мы рассматриваем сеть BP-SOM для того, чтобы 
понять, как, не затрачивая особых усилий, строить сети с новой архитек- 
турой, чтобы подчеркнуть, что не следует спешить. отказываться от ис- 
пользования нейронных сетей, если при первых попытках сеть не смогла 
справиться с поставленной перед ней задачей. 

По своей архитектуре сеть BP-SOM является стандартной сетью 
с прямой связью, имеющей один или несколько скрытых слоев (для бо- 
лее полной информации по этому вопросу см. [Weijters ef al., 1997]). 
С каждым скрытым слоем ассоциируется сеть ЗОМ. В следующем описа- 
нии мы предполагаем наличие только одного скрытого слоя, но точно та- 
кая же процедура используется и при наличии нескольких скрытых слоев. 

Число элементов в сети ЗОМ выбирается произвольным образом, 
а число входов каждого элемента сети SOM устанавливается равным чис- 
лу элементов в соответствующем скрытом слое. Сети МЕМ и SOM обу- 
чаются параллельно. Значения активности скрытого слоя служат входны- 
ми данными для сети SOM. В ходе обучения сеть SOM самоорганизует- 
ся, И эта самоорганизация переводится в классификацию после 
назначения каждому элементу сети SOM метки класса. Метка класса 
элемента сети ЗОМ определяется следующим образом. После некоторого 
числа учебных циклов все учебные образцы (вместе с их известными вы- 
ходными классами) один за другим предъявляются сети МЕМ. Значения 
активности скрытого слоя подаются на вход сети ЗОМ и элементу- 
победителю сети ЗОМ (т.е. элементу, оказывающемуся в метрике Евкли- 
да ближе всех других к вектору значений активности скрытого слоя). 
С каждым элементом сети SOM связываются счетчики выходных клас- 
сов. Каждый раз, когда элемент ЗОМ оказывается победителем в конку- 
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ренции за учебный образец, счетчик соответствующего этому образцу 
класса увеличивается на единицу. После рассмотрения всех учебных об- 
разцов каждый элемент сети ЗОМ получает метку, соответствующую 
классу с наивысшим значением счетчика. Вместе с меткой класса рас- 
сматривается и значение надежности, представляющее собой отношение 
значения счетчика соответствующего класса к общему числу побед дан- 
ного элемента. Пример архитектуры такой сети показан на рис. 6.14. 


3 победы с классом А 
и 7 побед с классом В — 
метка В, г = 7/10 


МЕМ 2 победы с классом А 
и 4 победы с классом В — 
метка В, г = 7/10 | 
Рис. 6.14. В данном примере имеется 27 учебных образцов — 13 из класса А и 14 из 
класса В. Чтобы избежать путаницы, здесь показаны связи сети МЕМ только с одним 
элементом сети SOM 


При корректировке весов в ходе обучения сети МЕМ рассматриваются 
два вектора ошибок. Первый из этих векторов вычисляется с использо- 
ванием стандартной техники обратного распространения ошибок. Это 
значит, что образец подается на рассмотрение сети МЕМ, и реальный 
выход сети сравнивается с плановым выходом. Выходная ошибка затем 
используется для того, чтобы вычислить значения ошибок для каждого из 
скрытых элементов C Vin ее ). Второе значение ошибки вычисляется для 
сети SOM. Значения активности скрытых элементов, генерируемые те- 
кущим входным образцом, сравниваются со значениями элемента- 
победителя сети SOM, имеющего метку класса, соответствующего теку- 
щему образцу. Другими словами, элементы $ОМ конкурируют за вектор 
значений активности скрытого слоя, но в конкуренции участвуют только 
элементы с правильной меткой класса. Разность между вектором значе- 
ний активности скрытого слоя и вектором весовых значений элемента- 
победителя сети SOM и является ошибкой сети SOM (у.о enor)» Если 
элемента сети SOM с меткой класса текущего образца не найдено, все 
элементы вектора Voom error УСТанавливаются равными нулю. Ошибка 
скрытого элемента вычисляется по формуле 
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((1-@)X Vp етог, ) + (TX@XVsom error)» CCIM r >t, 


Vbp_som_error ae 


Vbp_error;> ; в противном случае, 


где © обозначает влияние ошибки сети SOM, которое обычно устанавли- 
вается равным 0.25 (если установить его равным нулю, то будет иметь 
место стандартное обратное распространение ошибок), г является показа- 
телем надежности, а t — пороговым значением, обычно равным 0.95. 
Процесс обучения не отличается от процесса обучения стандартной се- 
ти с обратным распространением ошибок, если не учитывать добавление. 
дополнительного учитывающего ошибку члена для каждого скрытого эле- 
мента. Процесс обучения формально можно представить в следующем виде. 


1. Весовые значения для сетей МЕМ и SOM устанавливаются равными 
случайным значениям. Для всех элементов SOM устанавливаются 
значения меток, соответствующие неизвестному классу, а значения 
счетчиков классов и надежности устанавливаются равными нулю. 


2. Сеть МЕМ обучается в течение некоторого фиксированного числа 
эпох (т). На протяжении каждой эпохи выполняется следующее. 


e Для всех учебных образцов и соответствующих им выходных клас- 
сов вычисляются векторы значений активности скрытого слоя, 
и эти векторы используются для обучения сети ЗОМ; вычисляется 


Увр от епог И Обновляются весовые значения сети MEN. 


e После каждых п циклов (1 <п< т) метки классов и показатели на- 
дежности элементов сети SOM вычисляются снова. 


По завершении обучения сеть МЕМ может работать в автономном режиме. 

Преимуществом использования сети BP-SOM являются ee вышеупо- 
мянутые исключительные способности к обобщению. Мы знаем, что хо- 
рошие способности обобщения важны для любого приложения, посколь- 
ку от сети будет мало пользы, если она не сможет работать с данными, 
которые не предъявлялись ей во время обучения. Бывает так, что сеть 
МЕМ, обучавшаяся с относительной легкостью по методу обратного рас- 
пространения ошибок, оказывается неспособной к обобщению при при- 
емлемом уровне производительности. Иногда улучшить свойства обоб- 
щения помогают очень простые меры (например, проверка на перетре- 
нированность), но очень часто решение не будет столь простым. Когда 
сеть работает неадекватно, возникает искушение квалифицировать сеть, 
как не способную выполнить поставленную перед ней задачу. В работе 
[Clark, 1993] описан ряд экспериментов, проведенных разными исслело- 
вателями, чьи сети сначала не смогли выполнить свои задачи, но улуч- 
шили качество своей работы после изменения структуры учебного набо- 


166 Глава 6. Другие модели сетей и практические вопросы 


ра. Структура обычно меняется в результате декомпозиции задачи. Это 
можно сделать с помощью разбиения учебных данных на фазы (обучение 
на подмножестве учебных данных перед рассмотрением остальных учеб- 
ных экземпляров) или с помощью разбиения задачи на подзадачи, кото- 
рые можно пытаться решить, используя разные сети. 

Одним из экспериментов, о которых сообщает Кларк (Clark), является 
попытка Норриса (см. [Norris, 1989]) обучить сеть МЕМ выводу дня не- 
дели по данной дате. Например, по дате “24 февраля 1998 г.” сеть долж- 
на выдать ответ — “вторник”. | 

Сначала в эксперименте Норриса рассматривалась сеть МЕМ, обучае- 
мая по алгоритму обратного распространения ошибок. Сеть не могла 
обобщать полученные данные даже при варьировании числа слоев и эле- 
ментов. Норрис провел логический анализ алгоритма вычисления дня 
недели по данной дате. Процедура вычисления даты была разбита на три 
шага. Например, можно выбрать базовый месяц (скажем, ноябрь 1957 г.) 
и указать день для каждого числа базового месяца. Затем обучить сеть 
находить решение для чисел всех месяцев базового года (1957), используя 
смещение относительно базового месяца. Наконец, обучить сеть нахо- 
дить решение по смещению между годами (например, принимается сме- 
щение на один день для следующего года). Каждый шаг моделировался 
соответствующей подсетью. Первая подсеть завершила обучение до нача- 
ла обучения второй подсети, а вторая подсеть завершила обучение до на- 
чала обучения третьей. Обобщение имело точность около 90%, а наи- 
большее число ошибок выпадало на високосный год. | 

Хотя Норрис в конечном счете создал успешно работающую сеть, это 
произошло после “вмешательства человека”. Такое решение зависит от 
хорошего знания специфики задачи. Пока что получаемые на практике 
решения реальных проблем используют знания экспертов, но важно вы- 
яснить, как можно было бы усовершенствовать работу самой нейронной 
сети. Чаще всего нейронные сети применяются вслепую: мы не знаем, 
как решить некоторую проблему, и поэтому пробуем использовать ней- 
ронную сеть. При этих условиях, если сети не удастся решить проблему, 
то мы не будем знать причин, по которым она не работает, — из-за 
принципиальной невозможности решить поставленную задачу, неподхо- 
дящей структуры учебного набора данных или по какой-либо другой при- 
чине. Специалист по применению нейронных сетей знает, что для реше- 
ния реальных проблем обычно требуется множество экспериментальных 
данных, но все это время делаются попытки достичь существенного про- 
гресса с помощью разработки новых моделей нейронных сетей и понима- 
ния того, как именно нейронные сети решают конкретные проблемы. 
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_В [Weijters et al., 1997] задача выяснения дня недели по дате решена 
с помошью сети BP-SOM. Качество работы представленной сети является 
впечатляющим. Для сравнения авторы обучили и стандартную сеть MEN, 
используя метод обратного распространения ошибок. В ходе тестирования 
сеть с обратным распространением ошибок работала неадекватно в 61% слу- 
чаев, в то время как для сети ВР-ЗОМ этот показатель составил всего 3%. 

В главе 8 мы рассмотрим еще несколько примеров модульной ар- 
хитектуры. 


6.4. Практические вопросы обучения 
нейронных сетей 


6.4.1. Выбор модели сети. 


Первым вопросом, на который приходится отвечать при попытках 
практического применения нейронных сетей, является вопрос о типе вы- 
бираемой модели. Ответ на него. зависит от того, известна или нет клас- 
сификация учебных данных. Например, обучение системы, распознаю- 
щей клиентов с низким показателем кредитоспособности, скорее всего 
будет включать управляемое обучение, ввиду того, что кредитор наверня- 
ка будет иметь записи о том, как аккуратно выплачивались долги данным 
клиентом в прошлом. Иногда информации относительно класса, к кото- 
рому следует отнести данные, нет вообще, а иногда классификация явля- 
ется нечеткой. Например, часто бывает трудно дать точную характери- 
стику состояния машины, например вертолета. В настоящее время про- 

блеме мониторинга технического состояния вертолетов уделяется много 
° внимания. Бортовые датчики регистрируют информацию, которая затем 
загружается в базу данных на земле для анализа. Предполагая, что верто- 
лет обычно находится в хорошем техническом состоянии, загруженная ин- 
формация может анализироваться на предмет обнаружения: существенных 
отклонений от параметров предыдущих полетов. Если в данных обнаружи- 
ваются болышпие расхождения, необходимо внимательно проверить лета- 
тельный аппарат на возможность отказа. В таких ситуациях часто исполь- 
зуется кластерный анализ. Самоорганизующаяся карта признаков Кохоне- 
на при этом является не предполагающей управление нейронной сетью, 
имеющей много общего со статистической кластеризацией. 

Природа проблемы, как правило, ограничивает широту выбора сети 
одной-двумя моделями. Иногда конечный выбор зависит от личных 
предпочтений или знаний специалиста, делающего выбор. В других слу- 
чаях сама проблема снова ограничивает выбор. Предположим, например, 
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‘что система, в которой сеть реализована в программном виде, обучается 
по методу управляемого обучения, и задача требует, чтобы по окончании. 
обучения время выполнения было минимальным. Для управляемого обу- 
чения подходят и сеть с обратным распространением ошибок, и вероят- 
ностная нейронная сеть. Но если проблема предполагает анализ очень 
большого набора данных с большим числом признаков, то вероятностная 
сеть может предъявить слишком большие требования к операционной 
системе, в которой реализуется соответствующая программа. Рассмотрим, 
например, учебное множество из 2000 образцов, каждый из которых име- 
ет 30 признаксв. Первый слой весов в сети с обратным распространени- 
ем ошибок, имеющей 15 скрытых элементов, потребует выполнения 
30x 15 операций умножения для обработки неизвестного экземпляра, 
тогда как вероятностная сеть — 30х 2000. 


6.4.2. Архитектура 


Многие аспекты сетевой архитектуры (например, число элементов) 
часто определяются самой проблемой. Например, вероятностная нейрон- 
ная сеть должна иметь архитектуру, которая практически однозначно оп- 
ределяется учебными данными. Число входных и выходных элементов 
сети с прямой связью и обратным распространением ошибок тоже дикту- 
ется рассматриваемой проблемой (числом входных признаков и числом 
известных классов). Размеры скрытого слоя обычно находятся экспери- 
ментально. Обычно начинают с одного скрытого слоя, который содержит 
30-50% числа элементов входного слоя. Для самоорганизующейся карты 
Кохонена знание проблемы может подсказать общее число элементов 
в сети. Например, связь между набором данных и их классификацией 
может быть неизвестной, но обычно имеется некоторая информация от- 
носительно того, сколько должно быть классов (например, это могут 
быть типы отказов, которые возможны для таких машин). Обычно на 
каждый класс приходится по несколько элементов, что позволяет клас- 
сам разместиться в разных областях пространства входных образцов. 


6.4.3. Данные 


Доступность и целостность данных ‘составляют наиболее важный фак- 
тор успешного обучения нейронной сети. Данные должны в полной мере 
представить все возможные состояния решаемой проблемы, их должно 
быть достаточно для того, чтобы из них можно было извлечь данные для 
тестирования и проверки правильности их обработки сетью. Г 

Данные, выбираемые для обучения, должны характеризовать все про-. 
странство, которое может занять соответствующий класс. Например, если 
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два класса размещены очень близко один от другого, как показано Ha 
рис. 6.15, то важно рассмотреть данные, близкие к границе, разделяющей 
классы, чтобы быть уверенными в том, что сеть “посвятит” часть своих 
ресурсов данным из этой области, поскольку в противном случае экземп- 
ляры из этой области данных могут классифицироваться с ошибками. 


Следует использовать 
данные этой области 


Рис. 6.15. Чтобы правильно классифицировать не- 
известные данные, сеть должна обучаться на ха- 
рактерных данных. Чтобы распознать границу меж- 
ду классами А и В, сеть должна быть обучена на 
данных из области, указанной пунктиром 


Данные следует проверить и на согласованность. Как правило, 
в большом наборе данных всегда находятся несогласованности и ошибки. 
Иногда неверные данные вводятся оператором, а некоторые значения 
для отдельных образцов могут быть пропущены. Иногда в данных содер- 
жатся посторонние значения. Посторонними являются точки, которые 
‚сильно выделяются из остальных данных и могут указывать на какие-то 
ошибки, появившиеся из-за неправильной записи исходных данных. 
Здесь требуется внимательность, так как иногда посторонние значения 
могут порождаться и полезной информацией (например, информацией 
об отказе машины). Даже когда используется управляемое обучение, мо- 
жет оказаться разумным сначала провести кластеризацию данных, ис- 
пользуя методы обучения без управления или какой-то другой тип. стати- 
стического анализа, чтобы выявить потенциальные проблемы с данными. 
Тогда можно будет скорректировать проблемные данные или просто от- 
фильтровать их из учебного набора. | 

Тестовые данные и данные для проверки правильности должны выби- 
раться случайным образом и, опять же, они должны быть характерными 
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для исследуемой проблемы. Проверка правильности данных часто оказы- 
вается полезной потому, что тестовые данные иногда используются для 
контроля обучения сети (см. раздел 6.4.5). 

Данные обычно требуют масштабирования, чтобы они попадали в об- 
ласть действия сети. Например, целевые выходные данные для сети с об- 
ратным распространением ошибок и с сигмоидальной функцией актив- 
ности элементов должны лежать между 0 и 1, поскольку соответствующей 
является область значений сигмоидальной функции. Каждый признак 
может требовать своего масштабирования. Предположим, что один при- 
знак изменяется в диапазоне от 300 до 2000, а другой — от 5 до 130 
(скажем, это рост в миллиметрах и вес в килограммах). Тогда первый 
признак будет стремиться доминировать над вторым, поскольку будет 
иметь болышее влияние на ввод соответствующего элемента. Простей- 
шим методом масштабирования является деление значения признака на 
максимальное значение этого признака. В результате наибольшее значе- 
ние будет ограничено значением 1. Иногда необходимо масштабировать 
данные. Например, для функции активности типа “сигмоид” часто ис- 
пользуют диапазон между 0.1 и 0.9, что помогает избежать перехода сети 
в состояние “холостого хода” при достижении крайних пределов области 
‚ ее работоспособности. Признак может быть масштабирован к диапазону 
0.1—0.9 с помошью формулы 

0.9 —0.1 0.9-0.1 
y= +) 0.9 -——————- 1, |> 
Xmax ~ *min Xmax ~ *min 
где у обозначает новое значение, a х — первоначальное значение. Ha- 
пример, предположим, что значения признака изменяются от 2 до 20. 
Значение 2 перейдет в значение 


yit 09-01, . 99 0.8 203} = 0. 
20-2 20-2 
которое будет новым минимальным значением. Значение 20 отобразится 


в 0.9, а значению 5 будет соответствовать 


ут, 26204-2 023: 


20-2 20-2 
Вместо значений 0.9 и 0.1 можно выбрать другие, если требуется масшта- 
бировать данные к другому диапазону. 
Разные признаки могут также иметь существенно различные вариации 
в распределении значений. Например, два признака могут иметь одинако- 
вые области изменения значений, но значения одного из признаков могут 
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в большинстве своем находиться около максимального значения в конце 
диапазона, тогда как значения другого признака могут более или менее 
равномерно распределяться по всему диапазону. Соответствующая иллюст- 
рация для 10 точек показана на рис. 6.16. Другой формой масштабирова- 
ния является вычисление для каждого признака среднеквадратичного от- 
клонения и среднего значения. Имеющиеся значения признака затем мас- 
штабируются с помощью вычитания среднего и деления результата на 
значение среднеквадратичного отклонения для данного признака. 


12 
10 


ол ыЪьъ о о 


Peak М eee AT а eae ee ee 


Рис. 6.16. Два признака с одинаковыми областями значений, HO разными рас- 
пределениями 


Для проблем с множеством свойств часто наблюдается избыточность 
данных. Избыточность означает, что можно описать данные, используя 
меньше признаков, но сохранив при этом всю информацию. Эта идея 
может показаться странной, но ее можно иллюстрировать с помощью 
простого примера. Соответствующие значениям х иу из табл. 6.5 точки 
показаны на рис. 6.17. Эти точки лежат на прямой. Если мысленно по- 
вернуть оси так, что ось абсцисс расположится вдоль прямой, на которой 
лежат точки данных, то ось абсцисс можно считать новой осью, относи- 
тельно которой все точки данных имеют значение 0 для их компоненты 
у. Другими словами, теперь для описания данных требуется только одна 
новая ось х. Соответствующая трансформация может быть выполнена 
с помошью умножения значений х иу на 1/ JZ и последующего их CyM- 
мирования. Вместо описания данных с помошью двух признаков мы те- 
перь имеем только один. Такая трансформация сохраняет пространст- 
венную взаимосвязь данных. Например, евклидово расстояние между 
точкой (3,3) и точкой (7,7) равно расстоянию между RAR penOnR SMH 
точками 4.2426 и 9.8995 соответственно. 
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_ Таблица 6.5, Данные, описанные двумя переменными хи у, преобразуются так, 
_ чтобы та же информация обеспечивалась одной переменной 


x 7 y Преобразованное значение 
1.0000 ВИ" 1.4142 
2.0000 2.0000 2.8284 
3.0000 3.0000 _ 4.2426 
4.0000 4.0000 _ 5.6569 
5.0000 5.0000 7.0711 
6.0000 6.0000 8.4853 
7.0000 7,000 9.8995 
8.0000 8.0000 11.3137 
9.0000 9,0000 | 12.7279 


1 2 3 4. 5 с alec - 9 


Рис. 6.17. Данные из табл. 6.15 соответствуют точкам (х, у), расположенным на 
прямой. Если данные представить в новых координатах, показанных здесь ося- 
ми со стрелками, для их описания будет достаточно одной координаты 


Избыточность может быть выявлена с помошью анализа главных 
компонент. Об анализе главных компонент уже шла речь в главе 4, но 
ввиду важности этого метода мы обсудим его здесь снова. С помощью. 
этого метода находится альтернативное множество осей, относительно 
которых может быть представлен имеющийся набор данных. Кроме © 
того, выясняется, вдоль какой оси наблюдается наибольшая вариация 
данных. Например, на вышеупомянутой иллюстрации вся вариация 
происходит вдоль новой оси абсцисс, а отклонение вдоль новой оси 
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ординат оказывается равным нулю (именно поэтому вторая ось и не 
требуется). После того как избыточная информация удаляется, можно 
удалить и некоторые малозначащие компоненты (принято называть но- 
вые оси компонентами), вдоль которых наблюдается очень малая ва- 
риация данных. В результате исключения из рассмотрения малознача- 
щих компонент некоторая информация будет утеряна, но анализ глав- 
ных компонент покажет, как много информации все же будет 
сохранено. Вы можете, например, отбросить малозначащие компонен- 
ты, но сохранить достаточно компонент, чтобы описать 95% данных. 
На рис. 6.18 показанные там две главные компоненты имеют разные 
вариации (или длины). Первая компонента “растянута” в направлении 
наибольшего разброса данных, а вторая направлена под углом в 90 гра- 
дусов к первой. Вторая компонента описывает остаточную вариацию, 
т.е. вариацию, оставшуюся после учета первой компоненты. 


Вторая (или младшая) компонента 


Первая (или старшая) компонента, 
вдоль которой вариация максимальна 


Рис. 6.18. Данные, размещенные внутри овальной области, могут быть 
представлены новым множеством главных осей 


Автоассоциативная сеть с обратным распространением ошибок вы- 
полняет своего рода анализ главных компонент. При решении некоторых 
проблем может оказаться полезным выполнение предварительной обра- 
ботки данных с помощью автоассоциативной сети, прежде чем использо- 
вать другую сеть. Вторая сеть должна получать на вход значения актив- 
ности скрытых элементов первой сети. Но, удаляя малозначащие компо- 
ненты, нужно проявлять осторожность, так как для некоторых проблем 
такие малозначащие компоненты могут содержать информацию, являю- 
щуюся очень важной с точки зрения решения задачи. 

Внимание должно уделяться и тому, чтобы в учебный набор данных 
не было внесено смещение из-за неадекватного представления призна- 
ков. В сети BP-SOM, описанной в разделе 6.3, авторы работы [Weijters ef 
al., 1997] использовали 12 входных элементов, чтобы представить месяцы 
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года. Разные элементы представляли разные месяцы. При наивном под- 
ходе можно было бы использовать один элемент и нумеровать месяцы от 
1 до 12. Такая нумерация порождает смещение, в результате которого 
один месяц может иметь болышее влияние, чем другой. Но в каком 
смысле декабрь может быть более важным, чем январь, с точки зрения 
вычисления данных? 


6.4.4. Локальные минимумы 


Для сети с обратным распространением ошибок не является редко- 
стью попадание в локальный минимум. Локальный минимум может быть 
близким, но все же недостаточно близким к удовлетворительному реше- 
нию проблемы. Метод градиентного спуска работает прекрасно, пока на- 
клон функции ошибок все время ведет вниз, но на практике поверхность 
ошибок для большой сети будет иметь множество ложбин, холмов 
и складок. При таком рельефе будет достаточно мест, где можно застрять. 

Проблему локальных минимумов может помочь преодолеть инерци- 
онный член, поскольку при его использовании изменения весовых зна- 
чений включают часть предыдущего изменения. Если предыдущее изме- 
нение весового значения означало большой по величине шаг вниз по по- 
верхности ошибок и сеть оказалась в локальном минимуме, то такое 
предыдущее изменение весового значения может помочь сети продол- 
жить движение вниз, поскольку инерции окажется достаточно WIA того, 
чтобы преодолеть небольшую ложбину. Идея использования инерции 
иллюстрируется на рис. 6.19. | 


Последнее изменение веса 

привело к уменьшению ошибки. 

Сеть теперь находится в ложбине 

и потенциально может застрять в ней. 
Однако, если через инерционный член 
частично учесть последнее изменение, 
то ошибку можно заставить 
уменьшаться и дальше 


Рис. 6.19. Попытка обойти локальный минимум с помощью инерции 
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_ Если сеть ведет себя так, как будто она застряла в локальном мини- 
муме, одним из простых решений является прекращение текущего про- 
цесса обучения и запуск его снова с новыми случайными весовыми зна- 

чениями. Для больших сетей, когда для обучения сети до приемлемого 
_ уровня качества выполнения задачи требуются многочасовые усилия, не- 
обходимость начинать все сначала выглядит весьма непривлекательной. 
Иногда отойти от неудачного положения локального минимума на поверх- 
ности ошибок можно с помощью небольших случайных изменений всех 
весовых значений сети. Например, можно найти минимальное и макси- 
мальное весовые значения и к каждому весу добавить случайный процент 
(обычно меныше 10%) длины полученного таким образом диапазона. 

Альтернативой указанной возможности обойти локальные минимумы 
в сетях с обратным распространением ошибок является использование 
метода модельной “закалки”. Как только сеть начинает проявлять при- 
знаки попадания в локальный минимум, используется метод модельной 
“закалки”, чтобы вернуться на спускаюшуюся вниз часть поверхности 
ошибок. Вернувшись на спускающийся участок, можно продолжать ис- 
пользование алгоритма обратного распространения ошибок. 


6.4.5. Обобщение 


Нейронная сеть оказывается совершенно бесполезной, если она не уме- 
ет обобщать полученную ею информацию. Обобщение означает способ- 
ность сети качественно выполнять свою работу с данными, которые сеть 
в процессе обучения не видела. В случае сетей с обратным распростране- 
нием ошибок плохие возможности обобщения могут быть следствием нали- 
чия слишком большого числа скрытых элементов или перетренировки сети. 

Слишком много скрытых элементов могут оказаться препятствием 
для обобщения. Если сеть имеет слишком много ресурсов, то она мо- 
жет просто запомнить все учебное множество. Например, рассмотрим 
крайний случай, когда число скрытых элементов в сети с прямой свя- 
зью соответствует числу учебных образцов. С таким объемом ресурсов 
сеть может запомнить весь учебный набор данных, посвятив по одному 
скрытому элементу каждому образцу. Но качество работы с данными, 
которые сеть еще не видела, скорее всего окажется весьма низким. 
Иногда можно избежать такого запоминания путем постоянного изме- 
нения учебных образцов, добавляя к образцу до 10% шума (точнее, 
случайную долю указанной величины) каждый раз при предъявлении 
образца сети. Шум должен добавляться к оригинальному чистому век- 
тору, иначе со временем исходный учебный вектор может перестать 
быть характерным для решаемой проблемы. 
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Перетренировка при условии слишком большого числа скрытых эле- 
ментов означает, что сеть повторяет учебные данные слишком хорошо 
и не позволяет новым экземплярам достаточно далеко отклоняться от 
учебных данных. Чтобы не допустить перетренировки, обучение можно 
периодически прерывать для того, чтобы пропустить через сеть тестовые 
данные. Если общая ошибка для тестового набора данных уменьшается, 
то обучение можно продолжить. Как только ошибка на тестовом множе- 
стве начинает расти, обучение прекращается. Контролируя процесс обу- 
чения с помошью тестового набора данных, можно предотвратить слиш- 
ком близкую аппроксимацию учебного множества даже при наличии 
очень большого числа скрытых элементов. Если для контроля процесса 
обучения используется тестовое множество, необходимо также иметь на- 
бор для проверки правильности данных, аналогичный любому тестовому 
набору, но состоящий из данных, которые в ходе обучения не должны по- 
даваться на рассмотрение сети ни в какой форме (кроме как для контроля). 


6.5. Резюме 


В последнее время наблюдается значительный рост интереса к ис- 
пользованию стохастических методов. Ряд моделей сетей с целью опти- 
мизации использует идею модельной “закалки”. Метод модельной 
“закалки” может использоваться и для того, чтобы помочь алгоритмам 
градиентного спуска избежать попадания в локальные минимумы. 

Вероятностная нейронная сеть (сеть РММ) в своей базовой форме 
может использоваться для классификации образцов. Она обладает сле- 
дующими свойствами. 


e Сеть РММ является моделью с управляемым обучением. 


» Классификация неизвестных образцов основана на оценке Bepo- 
ятности того, что данный образец взят из имеющегося класса. 


e Оценка вероятности вычисляется на основе распределения веро- 
ятностей учебных образцов. 


e Обучение означает настройку параметров сети (весовых значений) 
на основе использования учебных экземпляров и эксперименти- 
рования с целью уточнения вероятностных оценок. 


Доступность и качество учебных данных в конечном счете самым не- 
посредственным образом влияют на качество работы нейронной сети. 
Данные нередко требуют предварительной обработки перед тем, как 
представить их на рассмотрение нейронной сети. Если нейронная сеть не 
может обобщать свои возможности на неизвестные ей данные, такая сеть 
не представляет никакой ценности. 


Резюме 


6.6. Дополнительная литература 


Обсуждение метода модельной “закалки” и машины Больцмана мож- 


но найти в большинстве книг по нейронным сетям. Но найдется совсем 
немного книг, в которых рассматривается вероятностная нейронная сеть. 
В [Masters, 1995] дается достаточно глубокий и вместе с тем полезный 
с практической точки зрения анализ вероятностной нейронной сети. От 
читателя требуются базовые знания языка С++ (или, по крайней мере, С). 


6.7. Упражнения 


1. 


2. 
3. 


Масштабируйте следующие данные к диапазону от 0.1 до 0.9: 
—12, —8, —6, —2, 4, 8, 9, 15, 15. 
Повторите вычисления упражнения 1 для диапазона от -0.9 до 0.9. 


Болышая торговая сеть по продаже автомобилей может предсказать 
тип автомобиля, который выберет потенциальный покупатель, осно- 
вываясь на таких признаках, как уровень дохода, семейное положение 
и т.д. Признаки автомобиля должны включать его технические харак- 
теристики и дизайн. Как можно было бы кодировать признаки, такие 
как, например, цвет автомобиля? Составьте список признаков, кото- 
рые, на ваш взгляд, можно было бы использовать для решения ука- 
занной задачи. В соответствии с этим списком сделайте оценку числа 
элементов, которые требуются для сети с прямой связью, чтобы вы- 
полнить поставленную задачу, а по размерам сети оцените размеры 
необходимого учебного множества. Обоснуйте свои ответы. 


Нейронная сеть РММ обучается на строчных буквах алфавита. Для 
учебных данных используются шесть разных шрифтов. Предположим, 
что символы представляются в виде сетки из 11х11 точек. Укажите 
число элементов в такой сети РММ. 


Повторите вычисления примера 6.2 для с = 0.3. 
Повторите вычисления примера 6.2 для o,= 0.5. 


Повторите вычисления примера 6.2, но на этот раз используйте ненорма- 
лизованные данные и метрику евклидова расстояния. Используйте с = 0.9. 


Повторите вычисления упражнения 7, используя с = 1.5. 


На рис. 6.20 показаны три класса данных и неизвестный экземпляр 
данных. Соответствующие точкам данные приведены в табл. 6.6. 
Вычислите класс, к которому принадлежит неизвестный образец, 
используя: 
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(a) “ближайшего соседа”; 


(6) центроид; С eg si 
(в) сеть РММ c o=0.9. | а 


Рис. 6.20. Изображение данных для упражнения 9 ' | . | i. 

Таблица 6.6. Данные, используемые в упражнении 9 | ae 
Knacc _ be HO GEES o a Le 
Не известен 5.50 6.00 | > 3 
A 20 ca ed _ 
А 8503 > 2 5.80 г 
А 4.00 6.00 а - 
А 4.00 580 — te. 
A 4.50 | 6.00 

А | 4.50 | 6.50 = 
а 6.00 6.00 | На 
B 7.00 | 6.70 ть 
B 6.00 7.00 eae 
B 7.00 7.50 | р 

Упражнения . 


Окончание табл. 6.6 


Класс 


Goo © @.@©@ 2 oo 2 2 we we @ BS BS Ww 


5.50 
6.00 
5.00 
5.90 
5.00 
6.00 


у 
6.80 


6.00 
6.50 
5.50 
6.00 
6.50 
5.50 
5.80 
4.00 
4.50 
4.00 
3.00 
3.00 
3.00 
3.00 


10. Повторите с помошью РММ классификацию из упражнения 9, ис- 


пользуя св = 0.8. 


11. Повторите с помошью РММ классификацию из упражнения 9, ис- 
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пользуя с = 0.5. 
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Глава 7 


Связь с искусственным 
интеллектом 


Задача. Введение в символьную парадигму искусственного 
интеллекта и связь с нейронными сетями. 


Цели. Вы должны понять: 


каково сегодняшнее состояние и цели изучения 
искусственного интеллекта; 

главные составляющие интеллектуальных систем; 
основные принципы символических рассуждений; 
суть основных проблем, возникающих при разработке 
систем понимания речи. 


Требования. Общие знания, касающиеся применения компьютерной 
техники. 


7.1. Введение 


Нейронные сети могут применяться при решении самых разных тех- 
нических проблем, и мы уже видели несколько примеров такого их при- 
менения в предыдущих главах. Архитектура искусственных нейронных 
‘сетей не идет ни в какое сравнение с человеческим мозгом по сложности 
и размерам, но именно такие сети составляют абстрактные модели мозга. 
Поэтому сразу же возникает вопрос: можно ли с помошью искусствен- 
ных сетей реализовать “искусственный интеллект”? Искусственный ин- 
теллект является одной из важнейших дисциплин в области информати- 
ки, имеющей глубокие связи с математикой, психологией и даже фило- - 
софией. Эта дисциплина была признана самостоятельной в 1950-х, 
Mc Tex пор на исследования по построению интеллектуальных машин . 
было потрачено немало времени и денег. Цель изучения искусственного 
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интеллекта в широком смысле может быть описана как создание машин, 
выполняющих задачи, с которыми хорошо справляется человек, но кото- 
рые нелегко запрограммировать с использованием традиционного подхо- 
да к вычислениям. Задачи, которые люди выполняют хорошо, но кото- 
рые трудны для программирования, часто оказываются вполне обыден- 
ными. Например, хождение по комнате или поддержание разговора не 
требует таких умственных усилий, как сложение чисел. Но создание ма- 
шин, выполняющих подобные задания, оказалось для инженеров про- 
блемой огромной сложности. Тот факт, что относительно просто постро- 
ить машину, способную сдать университетский экзамен, но не машину, 
способную выполнить уборку дома, делает вызов нашим традиционным 
представлениям о том, что.значит быть интеллектуалом. 

Исследователи искусственного интеллекта сосредоточились главным 
образом на том, что обычно называют символьной парадигмой, а также — 
“традиционным искусственным интеллектом” или “классическим искус- 
ственным интеллектом” (а иногда и “старомодным искусственным ин- 
теллектом”). Теперь существует новая форма искусственного интеллекта, 
‚ основанная на коннекциях (Т.е. нейронных сетях) и эволюционных MO- 
делях (Т.е. системах, существующих в некоторой среде и адаптирующихся 
к ней на основе естественного отбора). Новый искусственный интеллект 
не отрицает традиционный искусственный интеллект, и некоторые счи- 
тают, что не будет отрицать никогда. На самом деле для создания истин- 
но интеллектуальных машин может потребоваться радикальный перево- 
рот в наших представлениях о них. Можно возразить, что новый искус- 
ственный интеллект является только новой формой традиционного 
искусственного интеллекта, и основанием для такого возражения является 
тот факт, что до сих пор на низшем уровне мы используем все те же вы- 
числительные устройства. (символьные системы на самом деле реализуются 
на последовательных машинах, то же самое можно сказать и о большинст- 
ве моделей нейронных сетей). Искусственный интеллект все еще обещает 
то, что обещалось еще в начале его развития, но пока что о важности ис- 
кусственного интеллекта мы должны говорить с оптимизмом. В конце 
концов, наши запросы к качеству работы технических устройств все время 
растут, поэтому на любом этапе разработки таких устройств всегда неявно 
ставится задача создания машины с более высоким уровнем интеллекта. 
Несомненно, будут создаваться все более и более интеллектуальные маши- 
ны, но мы всегда будем живо интересоваться возможностью создания анд- 
роида, способного вести с нами настоящий диалог. И даже когда такой ан- 
дроид будет построен, философы все равно не перестанут спорить о том, 
обладает ли этот андроид интеллектом, сравнимым с нашим. 


182 Глава 7. Связь с искусственным интеллектом 


Чтобы развивать новый искусственный интеллект, HAM нужно понять 
кое-что из традиционного искусственного интеллекта и, возможно, све- 
сти обе эти парадигмы вместе “под знаменем” некоторого общего искусст- 
венного интеллекта. В этой главе мы обсудим природу интеллекта и разра- 
ботки в области традиционного искусственного интеллекта, чтобы в сле- 
дующей главе обратиться к достижениям разработчиков нейронных сетей. 


7.2. Природа интеллекта 


Интеллект представляет собой концепцию, не поддающуюся строгому 
определению. Человеческий интеллект складывается из множества ком- 
понентов, среди которых способность к обучению, органы чувств 
(например, зрение и осязание), позволяющие взаимодействовать с внеш- 
ней средой, и объем знаний, который вообще не поддается оценке. Даже 
наши домашние животные могут считаться интеллектуальными: они имеют 
сложные системы обработки информации, которые дают им возможность 
распознавать людей и выполнять задания, требующие немалого мастерства. 

Интеллектуальное поведение не является исключительной прерогати- 
вой действующего в изоляции центрального процессора (человеческого 
мозга) — работа центрального процессора зависит от дополнительных 
приборов, воспринимающих, предварительно обрабатывающих и структу- 
рирующих поступающие данные. Интеллектуальные агенты могут быть по- 
строены таким образом, что им придется действовать в полностью вирту- 
альном мире, но этим агентам необходимо будет замечать и развивать же-` 
лания и цели, чтобы проявлять себя интеллектуально. Исследования 
обычно концентрируются на каком-то отдельном и узком аспекте интел- 
лекта, и из практических соображений сенсорные каналы и первичная O6- 
работка данных часто заменяются предположением о наличии подходящей 
структуры данных. Традиционный искусственный интеллект заставлял нас 
верить, что теоретически возможно (но практически все еше нет) создать 
мозг — воплощение искусственного интеллекта — следует лишь создать 
правильный алгоритм, и мозг тут как тут. В рамках традиционного искус- 
ственного интеллекта изучение интеллектуальных систем концентрирова- 
лось вокруг нескольких ключевых вопросов — это представление данных, 
способность рассуждать и способность системы автоматически адаптиро- 
ваться к изменению условий (другими словами, способность обучаться). 


7.2.1. Знание и представление 


Интеллектуальная система воплощает знание. Когда мы говорим 
о знаниях, это могут быть фактические знания, необходимые, например, 
для участия в викторине, или практические знания, применяемые при 
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замене автомобильного колеса. Это могут быть знания, называемые Ha- 
выками, необходимые, например, при езде на велосипеде, или же это 
могут быть миллионы битов информации, которую мы называем здравым 
смыслом, позволяющим, например, не пролить воду из чашки при питье. 
Представление знания может быть явным или неявным. 
Явное знание может быть установлено и инспектировано, например, 
в форме фактов. 
Яблоко есть плод. 
Кот есть животное. 
Это могут быть также и правила. 
Если аккумулятор разрядился, то ‘автомобиль не заведется. 
Если процентные ставки растут, то цена кредита поднимается. 


Неявное знание передать непросто. Например, ребенку можно разъ- 
яснить общие принципы езды на велосипеде, включая необходимость 
врашать педали и направлять переднее колесо в сторону движения, но 
процедура не может быть записана так, чтобы ребенок мог ее прочитать, 
а затем использовать для того, чтобы поехать на велосипеде. В действи- 
тельности знание того, как ехать на велосипеде, приобретается в резуль- 
тате проб и ошибок. 

Традиционный искусственный интеллект складывается из обработки 
символов, а знания представляются с помощью символьных структур. 
Представление знания имеет несколько форм и различных уровней. Вот 
примеры представлений: знания, выраженные в виде правил; график из- 
менения роста ребенка; карта лондонского метро. Уровень представления 
зависит от уровня детализации информации, которую необходимо пере- 
дать. Например, карта лондонского метро представляет собой абстракт- 
ное изображение истинной сети связанных станций. Для целей планиро- 
вания переездов между станциями карта оказывается вполне подходя- 
щей, так как показывает все соединения и взаимное расположение 
станций. Изображенные на карте линии не отражают реального . рас- 
стояния и кривизну истинных линий, связывающих станции, так как 
эта информация к делу не относится, а только мешает зрительно- 
му восприятию. | 

Исследователи искусственного интеллекта используют знания о мозге 
как руководство для того, чтобы строить искусственный интеллект, но 
теорию того, как человек представляет знания, формализовать очень тя- 
жело. Как люди воспринимают корешки кни г — как канцелярские при- 
надлежности, украшения или элементы обстановки? Как можно предста- 
вить любовь, если машина не испытывает таких эмоций? Можно ли за- 
ставить машину испытать любовь и, если это возможно, то будет ли ее 
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понимание любви отличаться OT нашего? Существуют когнитивные тео- 
рии того, как представляет знания мозг человека, и именно такие теории 
служат основой для символьных представлений. 


7.2.2. Рассуждения 


Человек знает, как вести себя в новых ситуациях, поскольку он может 
анализировать свои знания и принимать адекватные решения, основан- 
ные на прошлом опыте и на прогнозировании возможных последствий 
таких решений. Символьная Парадигма пытается отчасти имитировать 
Такое поведение с помощью программ, включающих набор правил пред- 
ставления соответствующих умозаключений. 


„ 


Правило. Если аккумулятор разрядился, то автомобиль не заведется. 
Конкретные данные. Аккумулятор в автомобиле Сюзен разрядился. 
Новое выведенное знание. Автомобиль Сюзен не заведется. 


Совсем не сложно запрограммировать систему, работающую в COOT- 
ветствии с основными правилами логических заключений, но прежде, 
чем машина сможет демонстрировать нечто подобное реальному интел- 
лекту, придется найти ответы на некоторые важные вопросы. Правила 
воплощают знания, а поэтому и вопросы оказываются связанными со 
знаниями. Какие правила требуются и являются достаточными для того, 
чтобы выполнить задачу интеллектуально? Рассмотрим специальную за- 
дачу, требующую только знания устройства автомобиля. Экспертная сис- 
тема (система, основанная на использовании знаний, необходимых для 
вывода заключений в узкой области) вовлекается в следующий диалог. 


Клиент: Зачем на автомобилях устанавливаются ручные тормоза? 
Экспертная система: Чтобы остановить движение автомобиля. 


Клиент: Автомобиль ведь не всегда движется, когда ручной тормоз выключен? 
Экспертная система: Это зависит от горизонтальности поверхности. 


Клиент: Что дает энергию, заставляющую колеса автомобиля вращаться? 
Экспертная система: Двигатель. 


Клиент: Таким образом, если двигатель работает, то колеса будут вращаться? 
Экспертная система: Если сцепление включено. 


Клиент: Что случится, если двигатель будет работать со включенным ручным тормозом 
и включенным сцеплением? 


} 


| 
| 


Природа интеллекта Pe 185 


Экспертная система: Предполагается, что вы сначала должны отключить ручной тормоз. 


Клиент: Да, но предположим, что я этого не сделал. 
Экспертная система: ??? 


Ответ “Не знаю” на последний вопрос является приемлемым, если 
вы не эксперт по автомобилям, но выглядит смешным, если предпола- 
гается, что вы эксперт. Тот, кто никогда не водил автомобиль, но имеет 
хорошее знание физики и механических устройств, вполне может пред- 
ложить разумный ответ. Но знание физики требует выхода экспертной 
системы из узкой области автомобилей и ведет к необходимости освое- 
ния более широкой области знаний. Понимание того, сколько требует- 
ся знаний для адекватного выполнения соответстьующей задачи, явля- 
ется проблемой разработчика экспертной системы: достаточно трудно 
гарантировать правильную работу компьютерной программы, допус- 
каюшую ограниченное число типов ввода, но трудность проверки пра- 
вильности работы возрастает многократно, когда на этапе проектиро- 
вания потенциальный ввод не может быть предсказан вообще. Сущест- 
вуют впечатляющие экспертные системы, выполняющие огромную 
‘работу и, как сообщается, значительно уменьшающие расходы компа- 
ний. Но потребуйте от экспертной системы слишком много — и она 
вскоре покажется вам слабой, поскольку знания ее ограничены. 

У специалистов, создающих экспертные системы, возникают и другие 
трудности. Рассмотрим утверждение, подобное следующему. 


Чувство было просто ужасным, это счастье остаться после такого в живых, ведь все 
мужчины в самолете погибли. 


Является ли рассказчик женщиной? Находилась ли она в самолете? 
Я не сомневаюсь, что они возложат всю вину на женщину-пилота. 


Теперь кажется разумным предположить, что рассказчиком является 
женщина-пилот и что она была единственной женщиной на борту само- 
лета, потерпевшего аварию. 


Мы столкнулись на подходе к аэродрому. Я была в одноместном самолете, и у меня 
было катапультируемое кресло. 


Последняя информация заставляет нас пересмотреть предыдущие выво- 
ды. Построение интеллектуального агента, способного делать серии за- 
ключений, но исправляющих эти заключения на последующих стадиях, 
является только одной из множества проблем, стоящих перед разработ- 
чиками интеллектуальных систем. 
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7.2.3. Обучение 


Выживание любого животного зависит от способности адаптироваться 
к изменению ситуации на основе имеющегося опыта. Мы полагаемся на 
то, что наши домашние животные способны к обучению в такой мере, 
что мы сможем научить их вести себя социально приемлемым образом. 

Большинство компьютеров программируются для выполнения опреде- 
ленных задач. Инженер-программист представляет описание проблемы 
в виде алгоритма, а затем реализует этот алгоритм на каком-нибудь языке 
программирования высокого уровня. Связь проблемы с реализацией опи- 
рается на знание и представление. Например, можно заявить, что площадь 
круга равна nr” ‚ где л является числовой константой, а г — радиусом. По- 
нимание этого описания опирается на знание того, что радиусом является 
длина отрезка прямой, соединяющего центр круга с точкой на окружности, 
что такое окружность и тд. Предложенная выше формула выражает знание, 
но использование этой формулы тоже требует знаний: например, пользова- 
тель должен знать, что плошадь будет выражаться в единицах, представляю- 
щих собой квадрат единиц, использующихся для измерения радиуса. 

Вот пример программы на языке С для вычисления площади круга по 
указанной формуле: | 


float areaOfCircle(float radius) 
{ 

float: рт. = 3.241592 7; 

return (pi*radius*radius) ; 


} 


Внутренне компьютер представляет число л в двоичном формате, HO 
это не имеет никакого значения для программиста, равно как и реализа- 
ция именно на языке С не имеет никакого значения для пользователя 
программы, поскольку понимание данного алгоритма зависит только от 
достаточно хорошего знания английского языка и некоторых математи- 
ческих результатов. 

Ключом к программированию является способность выразить проблему 
в виде алгоритма и выбрать подходящее представление. Но что можно ска- 
зать о знании, которое не может быть выражено явно? Невозможность явно 
выразить решение означает, что программа не может быть получена тради- 
ционными методами. Но можно создать программу автоматически в резуль- 
тате процесса обучения. Машины могут программироваться так же, как про- 
исходит обучение собаки выполнению команды. Команда служит вводом, 
правильный ответ вознаграждается, и сигнал повторяется до Tex пор, пока 
собака не адаптирует свое поведение в соответствии с требуемым ответом. 
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Имеется много символьных алгоритмов обучения, но объем книги не 
. предусматривает их описания в этой главе. Заинтересовавшиеся читатели 
могут ознакомиться с дополнительной литературой по этому вопросу, 
р указанной в разделе 7.8. 


_ 7.3. Гипотеза символьных систем 


Традиционный искусственный интеллект опирается на гипотезу сим- 
вольных систем. Эта гипотеза в сильно упрощенной формулировке ут- 
верждает, что, реализовав огромную структуру взаимосвязанных симво- 
лов, представляющую реальные знания, и сложный набор символьных 
процессов, позволяющих оперировать структурами с целью создания но- 
вых структур, можно создать машину, работающую так же хорошо, как 
человек. Коротко говоря, гипотеза утверждает, что можно запрограмми- 
ровать компьютер так, что он будет думать. 

В этом разделе мы рассмотрим пару простых модельных задач, позво- 
ляющих понять, что такое символьная обработка. Мы не будем обсуж- 
дать здесь правильность указанной гипотезы, поскольку хотели бы только 
выяснить, что такое символьные процессы. Необходимо также иметь 
в виду, что если на базе этой гипотезы мысляшая машина может быть 
построена, то такая машина должна концентрировать колоссальные объ- 
емы знаний, объединенных в огромный массив сложных процессов. 
В этой главе мы рассмотрим природу вычислений. По практическим со- 
ображениям почти‘все эксперименты с искусственным интеллектом име- 
ли малые масштабы, но если создание машины, подобной человеку, воз- 
можно, масштабы этих экспериментов должны существенно измениться. 
Движение в этом направлении уже началось (см. раздел 7.8). 


7.3.1. Поиск 


Решение головоломок, построение планов, диагностика заболеваний 
и т.д. — все это проблемы, которые можно решить в результате процесса 
поиска. Рассмотрим планирование автобусного путешествия по Англии 
с юга на север. В вашем распоряжении имеется расписание движения ав- 
тобусов, а задачей является нахождение последовательности стыкующих- 
ся маршрутов, которые позволят вам добраться из Саутгемптона в Нот- 
тингем (предполагается, что прямого сообщения между этими городами 
нет). Можно начать с Саутгемптона, как пункта отправления, просмот- 
реть список пунктов назначения маршрутов, выбрать некоторый пункт 
‚назначения и перейти на ту страницу расписания движения, которая со- 
ответствует выбранному пункту назначения. Пункт назначения теперь 
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становится вашим воображаемым пунктом отправления, и вы выбираете. 
другой пункт назначения. Вы продолжаете эту процедуру до тех пор, по- 
ка не увидите название пункта отправления, для которого пунктом на- 
значения будет указан Ноттингем. Нет ничего проще! На практике, од- 
нако, вы воспользуетесь скорее. всего имеющимися у вас знаниями гео- 
графии и будете рассматривать только те промежуточные пункты 
назначения, которые лежат в направлении, приближающем вас к конеч- 
ному пункту назначения, Ноттингему. Вы можете также использовать 
несколько закладок, чтобы, найдя некоторый маршрут из Саутгемптона 
в пункт А, перейти к соответствующей Ноттингему странице расписания 
и посмотреть, есть ли маршрут из Ноттингема в пункт А. И вы будете 
продолжать перескакивать так с одной страницы на другую в надежде 
найти пункт, где ваш маршрут вперед и обратный маршрут пересекутся. 

Были разработаны компьютерные алгоритмы, имитирующие такой 
тип поиска. Давайте рассмотрим одну простую головоломку, подобную 
“игре в пятнадцать”, но из восьми элементов. Головоломка представляет 
собой решетку с девятью ячейками, где восемь ячеек заняты пронумеро- 
ванными плитками. Незанятую ячейку можно интерпретировать как пус- 
тую плитку: соответствующей плитки нет, но это оказывается полезной 
идеей, позволяющей упростить описание проблемы. Плитки размещают- 
ся случайным образом, а целью является размещение плиток в порядке 
номеров слева направо и сверху вниз. Задача ставится скучная и не- 
сколько трудоемкая: вы завязываете другу глаза и даете ему головоломку 
для того, чтобы он передвигал плитки. Ваш друг передвигает одну плит- 
ку, а вы проверяете результат. Плитки не размещаются в нужном поряд- 
ке, поэтому вы просите друга передвинуть еще одну плитку. Какую плит- 
ку двигать, решает ваш друг, a не вы. После очередного передвижения вы 
выполняете очередную проверку, и этот процесс продолжается до тех 
пор, пока плитки не будут размещены в надлежащем порядке. 

Плитки перемешиваются снова в случайном порядке. На этот раз вы 
ведете запись выполненных перемещений, чтобы ваш друг не повторял 
одни и те же последовательности перемещений из одних и тех же ком- 
бинаций плиток. Ваш друг выполняет поиск вслепую. 

На каждой стадии поиска для перемещения существует определенное 
число возможностей. Чтобы упростить описание, представим себе, что пе- 
редвигается пустая плитка и что она может двигаться вверх, вниз, вправо 
или влево, в зависимости от того, в каком месте решетки она находится. © 
Единственной формой помощи, которую вам разрешается оказать вашему 
другу, является сигнал завершения выполнения задания и недопущение 
повторения последовательности перемещений. Каждая комбинация плиток 
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называется состоянием, так что задачей является нахождение целевого со- 
стояния — того, в котором все плитки оказываются в нужном порядке. 
_ Можно рассмотреть случайное начальное состояние и выяснить, какие но- 
вые состояния могут быть из него получены с помощью перемещения пус- 
той плитки. Из каждого нового состояния процесс можно продолжить 
дальше. Соответствующая идея представлена на рис. 7.1. Показаны не все, 
а только некоторые состояния. От каждого состояния отходит несколько 
линий, каждая из которых соответствует определенному перемещению пус- 
той плитки. В результате такого перемещения возникает новое состояние 
решетки. Если продолжить построение иллюстрации дальше, мы увидим, 
что в нескольких местах иллюстрации будут размешены состояния, соот- 
ветствующие конечной цели. В результате движения по маршруту переме- 
щений от начального состояния (корня) к любому из целевых состояний 
выявляется последовательность перемещений, дающая решение. Одни по- 
следовательности могут при этом оказаться короче других. 


11213 
oo 
[71518 


Рис. 7.1. Некоторые из состояний поиска, генерируемые при попытках решить 
головоломку из восьми плиток. Целевое состояние находится в нижнем ряду 
слева. Для начального состояния перемещение пустого квадрата вверх экви- 
валентно перемещению “двойки” вниз, но описание головоломки в терминах 
движения пустого квадрата оказывается более удобным 
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Алгоритмы поиска вслепую легко реализуются Ha компьютере. Труд- 
ности обычно заключаются в выяснении того, от чего зависят состояния 
и как лучше всего эти состояния представить. Для головоломки из вось- 
ми плиток представление состояний оказывается простым, но для реаль- 
ных задач найти подходящее представление бывает довольно непросто. 

Если вы сами решаете головоломку из восьми плиток, то, вероятно, 
найдете решение быстрее, чем это сделал бы ваш друг с завязанными 
глазами. Вы будете делать для себя выводы о том, приближает ли каждое 
конкретное перемещение вас к конечной цели. Этот информирующий 
вариант игры называется эвристическим поиском. Поиск подходящего 
маршрута по расписанию с использованием знания географии является 
эвристическим: для направления поиска используются подходящие 3Ha- 
ния. Разработка алгоритмов для осуществления эвристического поиска не 
намного сложнее программирования поиска вслепую. Самым сложным 
моментом здесь является определение эвристик, т.е. правил поиска. 

Поиск является основой искусственного интеллекта. Как поиск может 
быть представлена и диагностика состояния здоровья пациента с помощью 
применения правил, и некоторые аспекты проблемы понимания речи. 


7.3.2. Продукционные системы 


Продукционная система несет в себе фундаментальные идеи, на кото- 
рых “выросли” экспертные системы и языки типа Prolog. “Сердцем” 
продукционной системы является процедура управления, остающаяся 
неизменной во всех приложениях. Вычисления, которые выполняет про- 
дукционная система, управляются набором продукционных правил 
и конкретными данными. Продукционные правила образуют множество 
пар “условие-действие”, определяющих условия, которые должны быть 
выполнены для того, чтобы правило оказалось разрешенным к примене- 
нию, и действие, которое должно быть выполнено, если это правило 
применить. Рабочая память хранит текущее состояние, и именно от Te- 
кущего состояния зависит, будет ли выполняться условие конкретного 
правила. Продукционный цикл исключительно прост: по состоянию ра- 
бочей памяти следует сначала проверить, какие правила могут быть удов- 
летворены, сделать разрешенными к применению все удовлетворенные 
правила, из множества разрешенных к применению правил выбрать пра- 
вило, которое следует применить, и обновить состояние рабочей памяти 
соответственно действию примененного правила. 

Множество разрешенных к применению правил называется множест- 
вом противоречий, а стратегия выбора из этого множества правила, кото- 
рое следует применить, называется стратегией разрешения противоречий. 
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Весь процесс выбора правила для применения повторяется до Tex пор, 
пока не будет удовлетворено некоторое условие остановки. Простой 
пример такого процесса показан на рис. 7.2. В этом примере стратегия 
разрешения противоречий представляет собой стратегию новизны, озна- 
чающую просто выбор правила, условие которого ранее еше не было удов- 
летворено, а в случае нескольких таких правил — произвольный выбор лю- 
бого из них. Определение стратегии разрешения противоречий является 
задачей разработчика. Существует несколько стандартных стратегий, на- 
пример уже упоминавшаяся стратегия новизны или стратегия конкретно- 
сти (когда преимущество имеет правило, имеющее болышее число усло- 
BUM), но читатель должен понять, что детали конструкции любой системы 
оставляются на усмотрение ее разработчика: продукционная система явля- 
ется общей вычислительной процедурой, которую можно настраивать так, 
как этого требует конкретная задача. Пример последовательности действий, 
выполняемых продукционной системой, показан на рис. 7.3. 


Продукционное множество: 


1 РлОлК => цель 
23:39 K 

3 TAWS}Q0 

4° 15. 


. 


Рис. 7.2. Шаги продукционной системы при выводе целевого заключения (T, И! и Р суще- 
ствуют, как факты, с самого начала) 


7.4. Представление с помощью символов 


Чтобы строить интеллектуальные системы, язык представлений дол- 
жен отвечать следующим требованиям. 


» Быть достаточно выразительным, чтобы позволять представление 
всех реальных состояний. 
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Сравнить условия правила 
_ с состоянием рабочей памяти 


Поместить все правила, 
условия которых удовлетворены, 
в множество противоречий 


Выбрать правило для применения, 
используя стратегию разрешения противоречий 


Добавить новые данные в рабочую память 


Применить правило, чтобы выполнить действие 


Удовлетворено ли 


Нет 
Е целевое условие? 


СТОП 


Рис. 7.3. Цикл продукционной системы 
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e Быть сжатым настолько, чтобы вычисления поддавались 

управлению. | | 

e Иметь форму, подходящую для рассуждений, чтобы модель реаль- 

ности могла менять свое состояние. 

Логика используется математиками для того, чтобы доказывать 
‘правильность или неправильность утверждений. Все главные языки 
представлений, включая Rules, Semantic nets и Frames, могут быть пе- 
реведены в форму логики, известную как исчисление предикатов пер- 
вого порядка. Краткое обсуждение исчисления предикатов первого 
порядка дается сразу после рассмотрения более простой формы логи- 
ки, называемой пропозиционным исчислением или исчислением вы- 
сказываний. 


7.4.1. Исчисление высказываний 


Высказыванием является предложение, которому может быть при- 
своено значение ИСТИНА или ЛОЖЬ. Например, “Сегодня идет дождь” 
или “Медь есть металл” являются или правильными, или ложными ут- 
верждениями. В рамках исчисления высказываний можно представлять 
предложения в символьном виде; создавать сложные предложения. из 
других предложений, используя связки, и выводить заключения, чтобы 
найти значение предложения. Синтаксис исчисления высказываний опи- 
сывает то, как создаются предложения (включая сложные выражения), 
грамматика определяет правила, по которым выясняется синтаксическая 
корректность предложения. Семантика исчисления высказываний опре- 
деляет то, как определить соотношение между предложением и значе- 
ниями ИСТИНА или ЛОЖЬ. 

Элементарным предложением является простое высказывание типа 
“Сегодня идет дождь”, и такие предложения часто представляются про- 
писными буквами, например Р или О. Сложное предложение создается 
с помошью связки, соединяющей два или несколько элементарных пред- 
ложений. Круглые скобки используются для того, ”тобы указать приори- 
тет операций при комбинировании элементарных предложений с помо- 
щью связок. В табл. 7.1 дано объяснение связок, а в табл. 7.2 приведе- 
ны правила грамматики для логики высказываний. Грамматика может 
использоваться для анализа предложения и проверки того, что оно 
синтаксически правильно. Например, неформальное описание провер- 
ки синтаксической правильности выражения ((PAQ)AR)=>S предла- 
гается в табл. 7.3. 
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Таблица 7.1. Логические связки 


Связка Пример 


л (И), называемая конъюнкцией Сегодня идет дождь И я промок 


Рл 0, roe Р обозначает конъюнкт “Сегодня идет 
дождь", а Q — конъюнкт “Я NPOMOK” 


v (ИЛИ), называемая дизъюнкцией Салли пошла в магазин ИЛИ Том пошел в магазин 


Ру 0, где Р обозначает дизъюнкт “Салли пошла 
в магазин”, а Q — дизъюнкт “Том пошел в магазин” 


— (НЕ), называемая отрицанием Слон HE розовый. 
=P, где Р обозначает “Слон розовый” 


=> (ВЛЕЧЕТ), называемая ЕСЛИ я на улице И идет дождь, ТО я промокну 
импликацией или 


(Рл0) = В, где Р обозначает “Я на улице”, 
утверждением “если ..., TO... 


О обозначает “Идет дождь", а В — “Я промокну” 


<> (ЭКВИВАЛЕНТ), называемая Выражения по обе стороны этой связки должны быть 
эквивалентностью логически эквивалентными 
или двойной импликацией 


Таблица 7.2. Правила грамматики для логики высказываний 


Правило грамматики Объяснение 
Предложение —> Элементарное - Предложение является либо элементарным, либо 
предложение сложным 
| Сложное - предложение 
Элементарное - предложение — Элементарное предложение обозначается прописной 
Р|О|В|... буквой, как правило из последней трети алфавита 
Элементарное - предложение -> Элементарное предложение может представляться 
ИСТИНА | ЛОЖЬ | также значениями ИСТИНА или ЛОЖЬ 
Сложное - предложение —> Сложное предложение строится из двух других 
Предложение Связка Предложение предложений и связки. Отрицание предложения 
| Предложение | (Предложение) тоже является предложением, и помещение 
предложения в скобки тоже в результате дает 
предложение 
Связка > л|\м|-|=>| Связкой является любой из логических символов, 


представленных в табл. 7.1 
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и. 


Таблица 7.3. Пример синтаксического анализа 


Шаги Объяснение 


((PAQ)AR)=>S В соответствии с первым правилом предложение является или 
элементарным, или сложным. Очевидно, что это выражение 
не является элементарным предложением, поэтому мы 
должны проверить, что оно является сложным предложением 


(PAQ)AR)>S Правой стороной выражения является $, а $ является элемен- 
я тарным предложением в соответствии со вторым правилом 
((PAQ)AR) Мы должны показать, что (P AQ) л К является сложным 
предложением 
(PAQ)AR Сравнивая с правилом “Предложение Связка Предложение”, 
= 


делаем вывод, что В является предложением, поскольку 
оно является элементарным 


(РлО) Мы должны показать, что P A О является сложным предложением 


PAQ Снова сравнивая с правилом “Предложение Связка Предложение”, 
о делаем вывод, что и P, и О являются предложениями 
Семантика исчисления высказываний определяется с помошью таб- 
лицы истинности. Все связки, за исключением отрицания, являются би- 
нарными отношениями, поэтому в определениях требуется использовать 
два символа. Предложение может принимать значение ИСТИНА или 
ЛОЖЬ, поэтому для бинарных связок имеется четыре возможные комби- 
нации, как показано в табл. 7.4. | 


Таблица 7.4. Таблица истинности 


Р Q —Р PaQ Руд Р => Q P=Q 
ИСТИНА ИСТИНА ЛОЖЬ ИСТИНА ИСТИНА ИСТИНА ИСТИНА 
ИСТИНА ЛОЖЬ . ЛОЖЬ ЛОЖЬ ИСТИНА — ЛОЖЬ ЛОЖЬ 
ЛОЖЬ ИСТИНА UCTUHA ЛОЖЬ ИСТИНА ИСТИНА ЛОЖЬ 
ЛОЖЬ ЛОЖЬ ИСТИНА — ЛОЖЬ ЛОЖЬ ИСТИНА ИСТИНА 


По большей части определения связок интуитивно понятны. Напри- 
мер, “Сегодня идет дождь” И “Сегодня НЕ идет дождь”, очевидно, 
ЛОЖЬ, что подтверждается таблицей истинности, если найти в ней BO3- 
можные значения для ИСТИНА л ЛОЖЬ или ЛОЖЬ л ИСТИНА. Опре- 


196 Глава 7. Связь с искусственным интеллектом 


деление импликации часто вызывает вопросы, поскольку мы интуитивно. 
пытаемся применить интерпретацию, основанную на нашем общем по- 
нимании языка. Например, можно заявить, что предложение типа “Если 
число 5 четно, то мой автомобиль розовый” (имеющее форму Р => О) яв- 
ляется ложью, поскольку оно не имеет смысла. Однако, в соответствии 
с определением импликации, это выражение оказывается истинным, вне 
зависимости от того, является ли ваш автомобиль розовым или нет: мы 
знаем, “число 5 четно” является ложью, так что соответствующей комби- 
нацией должна быть либо ЛОЖЬ = ИСТИНА (автомобиль розовый) или 
ЛОЖЬ = ЛОЖЬ (автомобиль не розовый). Мы стремимся интерпретиро- 
вать выражение типа “если ..., то ...” как причинно-следственное, 
и именно поэтому предложение “Если число 5 четно, то мой автомобиль 
розовый” выглядит бессмысленным, так как определение числа 5 не ока- 
зывает никакого влияния на цвет вашего автомобиля. Здесь следует по- 
нять, что импликация в исчислении выражений не требует, чтобы име- 
лась хоть какая-то смысловая связь между предложениями по обе сторо- 
ны связывающей их импликации. По импликации, знание того, что Р 
является ложью, не дает никакой возможности сделать вывод об истин- 
ности О. ‘Например, предложение “Если аккумулятор разрядился, то aB- 
томобиль не заведется” дает нам возможность заключить, что истиной 
является “автомобиль не заведется”, если истиной является “аккумулятор 
разрядился”, но правило не говорит нам ничего о способности автомоби- 
ля завестись, если мы не знаем, что “аккумулятор не разрядился” — ав- 
томобиль может не завестись по целому ряду причин совершенно иного 
рода. Если этих объяснений вам все еще недостаточно, лучше всего ин- 
терпретировать Р => О просто как предложение, позволяющее сделать вы- 
вод о TOM, что О есть ИСТИНА, если мы знаем, что Р есть ИСТИНА. 

Существует целый ряд правил вывода логики высказываний, и они 
представлены в табл. 7.5. 


Таблица 7.5. Правила вывода логики высказываний 


Правило Объяснение 
Modus ропепз: Если посылка (А) есть ИСТИНА, то и заключение (В) 
А = В, А есть ИСТИНА 
В 
Исключение И: Знание того, что А И В есть ИСТИНА, должно означать, 
AAB AaB что A есть ИСТИНА и что В есть ИСТИНА 
сы | 
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Окончание табл. 7.5 


Правило Объяснение 
Интродукция ИЛИ: _ Ecnn А есть ИСТИНА, то A ИЛИ В есть ИСТИНА; 
А В то же самое имеет место, если В есть ИСТИНА 
AVB AvB 
Интродукция И: Если А есть ИСТИНА и В есть ИСТИНА, 
А В -To А И Весть ИСТИНА 
AAB 
Двойное отрицание: Если А есть НЕ НЕ ИСТИНА, то А есть ИСТИНА 
——А 
А 
‚ Единичная резолюция: Если А ИЛИ В есть ИСТИНА и НЕ В, то А есть ИСТИНА. 
АУВ,—В АУВ, —А Точно так же если НЕ А, то В есть ИСТИНА 
А | В 
Резолюция: Если А ИЛИ В и НЕ В ИЛИ С, то, поскольку В 
АМВ, —ВУС ee не может быть ИСТИНА и ЛОЖЬ одновременно, 
AvC должно быть A ИЛИ В есть ИСТИНА 
Пример 7.1 


Имеется следующая информация. 


Если аккумулятор машины разряжен, то машина не заводится. Если машина Джона не 
заводится и текущее время оказывается позже 8 часов утра, то Джон опоздает на поезд. 
Однажды утром после 8 часов утра аккумулятор машины Джона оказался разряженным. 


Используя логические правила вывода, покажите, что Джон опо- 
здал на поезд. 


Решение 7.1 


В символьном виде информация может быть представлена следую- 
щим образом. 


аккумулятор машины разряжен. 
машина не заводится. 

время после 8 утра. 

Джон опоздал на поезд. 


ФФ 


Правило 1. Р = 0. 
Правило 2. Ол А => 5. 
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Известно, что Ри К есть ИСТИНА. Задачей является доказательство 5. 
Доказательство строится следующим образом. | 


1 Р Дано. 

2. `В Дано. 

3 .Q Следует из шага 1 и правила 1 по правилу modus ponens. 
4 QAR Следует из шагов 3 и 2 по правилу интродукции И. 

5:19 Следует из шага 4 и правила 2 по правилу modus ponens. 


7.4.2. Исчисление предикатов 


Исчисление высказываний предполагает, что мир можно моделиро- 
вать с помощью фактов. Но для реальных приложений исчисление вы- 
сказываний не подходит. Рассмотрим, например, число предложений, 
которые потребуются для моделирования опоздания на работу, скажем, 
50 человек. Для этого требуется язык, более выразительный в том смыс- 
ле, что он должен допускать обобщенные выражения. Исчисление пре- 
дикатов (или, более точно, исчисление предикатов первого порядка) 
расширяет язык исчисления высказываний так, что мир оказывается со- 
стоящим из объектов, отношений и свойств. Этот язык допускает обоб- 
щенные утверждения, вводя в рассмотрение переменные, а также кван- 
торы, позволяющие определять свойства совокупности объектов. Рас- 
смотрим утверждение “Если лошадью владеет Джон, то лошадь является 
чистокровной”. Это утверждение ссылается на совокупность объектов, 
а именно, на всех лошадей, которыми владеет Джон, вследствие чего от- 
падает необходимость ссылаться на каждый экземпляр (Т.е. на каждую из 
лошадей Джона) в отдельности. Это утверждение является обобщенным ~ 
и избавляет от необходимости формулировки соответствующего утвер- 
ждения для каждой из лошадей Джона. Можно перефразировать утвер- 
ждение и сказать “Все лошади, которыми владеет Джон, являются чисто- 
кровными”. Здесь для указания того, что свойство “чистокровный” при- 
менимо ко всей совокупности лошадей Джона, используется квантор 
(все). Слово “владеть” является бинарным предикатом, описывающим 
‚ отношение между Джоном и лошадью, а слово “чистокровный” является 
унарным предикатом, описывающим свойство лошади. В терминах ис- 
числения предикатов утверждение “Все лошади, которыми владеет Джон, 
являются чистокровными” в символьном виде записывается так: 


Ух(Лошадь(х) л Владеть(Джон, x)) = Чистокровный(х). 


Символ V называется квантором общности и читается как “для всех” или 
“каждый”. В исчислении предикатов определяется и другой символ, 
а именно, символ 3, называемый квантором существования, который чита- 
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ется как “существует”. Например, Korma мы говорим “Джон имеет чисто- 
кровную лошадь”, это означает, что существует по крайней мере одна ло- 
шадь (а возможно и больше) в коллекции Джона, являющаяся чистокров- 
ной. На языке предикатов это утверждение выглядит следующим образом: 


Эх Лошадь(х) A Владеть(Джон, x) л Чистокровный(х). 


Исчисление предикатов предлагает язык более сжатый, чем обыч- 
ный разговорный язык. В системе исчисления предикатов одно пред- 
ложение будет соответствовать множеству предложений обычного раз- 
говорного языка. Исчисление предикатов уменьшает и неоднознач- 
ность. Например, “Все лошади не являются чистокровными” можно 
спутать с “Не все лошади являются чистокровными”, и путаница раз- 
решается с помощью знания того, что существуют другие породы ло- 
шадей. Представление каждого из предложений в терминах предикатов 
показывает их разницу: Улошади —Чистокровный(лошадь) и —"лошади 
Чистокровный(лошадь). Первое предложение действительно утвержда- 
ет, что все чистокровные вымерли (ни одного экземпляра не существу- 
ет), а второе предложение утверждает, что “то, что каждая лошадь яв- 
ляется чистокровной, неверно”. 


7.4.3. Другие символьные языки 


‚Есть много языков представлений, HO они имеют много общего. По- 
пулярные языки типа FOPC, Frames или Semantic nets по существу экви- 
валентны и имеют целый ряд общих ключевых элементов: 


» объекты, такие как, например, мяч, персона, лодка, велосипед или 
философ; 

е отношения между объектами, такие как, например, Джон есть 
отец Ким, или паровоз гянет состав; 


е свойства, такие как, например, моя машина зеленого цвета, Дэвид 
имеет рост шесть футов. 


Эти языки на самом деле отличаются только синтаксисом. Синтаксис явля- 
‚ется важным, поскольку для выражения информации один формализм может 
оказаться более подходящим, чем другой. Например; легче найти маршрут 
между двумя станциями лондонского метро, используя графическую схему 
сети, чем описание соединений между ее станциями в виде текста. Выбирае- 
мый нами язык должен быть настолько выразительным, чтобы мы могли вы- 
разить все необходимые знания, но достаточно сжатым, чтобы можно было 
эффективно организовать необходимые вычисления. Кроме того, язык дол- 
жен позволить выводить новые знания из уже имеющихся. 
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7.4.4. Язык Prolog 


Язык Prolog формально не является языком представлений, но его 
синтаксис используется в следующей главе, поэтому мы приведем здесь 
его описание. 

Язык Prolog является языком программирования искусственного ин- 
теллекта, в котором данные представляются как множество отношений 
между объектами. Программа на языке Prolog складывается из списка 
фактов и правил, и этот язык является привлекательным по причине то- 
го, что он имеет встроенный механизм вывода заключений, который дает 
BC3MOXKHOCTb получить ответы на вопросы о запрограммированном зна- 
нии. Синтаксис языка Prolog опирается на исчисление предикатов. От- 
ношение типа “Джон любит Мери” записывается так: 


любит(джон, мери). 


Предикат (т.е. отношение) и объекты отношения должны начинаться 
с буквы нижнего регистра. Указанное выше отношение трактуется как 
факт, и другими примерами фактов являются: 


металл(медь) медь есть металл; 
играют(джон, мери, теннис) Джони Мери играют в теннис. 


Переменная должна начинаться с символа верхнего регистра. Когда 
переменная ссылается на константу (Т.е. на конкретный экземпляр, та- 
кой как джон), говорят, что переменная конкретизирована. Переменная 
может быть конкретизирована в результате сравнения выражений. На- 
пример, предположим, что база данных содержит любит(джон, мери). 
Тогда могут быть заданы следующие вопросы. 


Кто любит мери? 

любит(Х, мери) 

ответ Х = джон Х конкретизирована значением джон 
Кто является тем, кого любит джон? 


любит(джон, Х) 
ответ.Х = мери 


Кто кого любит? 
любит(Х, Y) 
ответ Х = джон, Y = мери 


Правила выражаются с помощью обратной нотации в форме “условие 
если условие”, в противоположность прямой нотации “если условие, то 
условие”. Например, 


дядя(Х, У) :- oreu(Z, У), брат(, Х). 
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ох ~ Символ “:-” используется вместо ЕСЛИ, а символ “,” — вместо И. Та- 
ким образом указанное правило утверждает, что 

Х есть дядя У, если Z есть отец У и Z есть брат Х. 
Пример конкретизации этого правила показан на рис. 7.4. 


Отец 
Малкольм 


дядя(джон, малкольм) :- отец(дэвид, малкольм), брат(дэвид, джон). 


Рис. 7.4. Правило языка Prolog, конкретизированное семантическим представлени- 
ем, показанным в виде диаграммы 


Переменная является локальной по отношению к выражению 
(т.е. факту или правилу): переменная с одним и тем же именем, появ- 
ляющаяся в двух разных правилах, будет интерпретироваться в языке 
Prolog как имеющая разные имена. 

Работа Prolog построена на унификации. Когда Prolog пытается дока- 
зать утверждение, ищется первое выражение, дающее совпадение. Для 
совпадения двух выражений они должны: 


» иметь одно и то же отношение; 
» иметь одинаковое число аргументов; 
» Давать совпадение по каждому аргументу. 

Сравнение аргументов определяется следующим образом. 

1. Константы: две константы дают совпадение, если они являются иден- 
тичными строками. 


2. Константа и переменная: если переменная не конкретизирована, 
то она будет давать совпадение с любой константой и будет конкрети- 
зирована этой константой; конкретизированная переменная будет да- 
вать совпадение с константой в соответствии с п. 1. 


3. Переменные: две произвольные переменные (не конкретизирован- 
ные) всегда дают совпадение, а если в дальнейшем одна переменная 
становится конкретизированной некоторой константой, то другая пе- 
ременная также будет конкретизирована той же константой. 


Примеры совпадений показаны в табл. 7.6 
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Таблица 7.6. Сравнение образцов в языке Prolog 


Выражение 1 Выражение 2 Совпадение 
любит(Х, мери) любит(джон, мери) да 
любит(джон, Х) любит(джон, мери) Х = мери 
любит(джон, мери) нравится(джон, мери) нет 
любит(Х, У) любит(джон, мери) Х = джон Y = мери 
любит(джон, мери) любит(Х, X) нет 
любит(Х, мери) и Х = джон любит(У, мери) Y = X = джон 
толкает(джон, крис) толкает(джон, крис, рука) нет 

Пример 7.2. 


Ниже приведена программа на языке Prolog. Объясните, как ответит 
Prolog на запрос 

?-дядя(джон, Х), 
где “?-” является приглашением Prolog. Листинг программы сле- 
дующий. 


1 отец (дэвид, малкольм). 

2 дядя (грэхем, малкольм). 

3 брат(дэвид, джон). 

4 дядя(Х, У) :- отец(2, У), брат(2, X). 


Номера строк показаны для удобства. 


Решение 7.2. 


Prolog будет искать выражение с предикатом “дядя” и двумя аргу- 
ментами. Первое такое выражение находится в строке 2, но совпаде- 
ния не наблюдается, поскольку первый аргумент “грэхем” не соот- 
ветствует аргументу “джон”. Второе выражение, содержащее “дядя”, 
находится в строке 4, но для того, чтобы Prolog “достиг успеха” 
в достижении цели (целью является показать, что Джон есть чей-то 
дядя), должна достижении удовлетворена правая сторона выражения: 
должны быть совпадения для отец(й, У) и Opat(Z, Х). Х в запросе и Х 
в правиле считаются различными, так что мы имеем следующее: 


Запрос: дядя(джон, X1) 


должен сравниваться с дядя(Х2, У), что является левой частью пра- 
вила в строке 4. Совпадение получается для X2 = джон и Y = XI 
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(или X1 = У). Теперь задачей является доказать oTeu(Z, Xl) и Opat(Z, 
джон). oTeu(Z, Xl) дает совпадение со строкой 1 при Z = дэвид 
и Х! = малкольм. Теперь задачей является доказать брат(дэвид, 
джон), что удовлетворяется строкой 3. Prolog ответит Х = малкольм. 


7.5. Понимание речи 


Для людей общение с помощью обычного разговорного языка являет- 
ся, очевидно, несложной задачей, а вот все компьютерные системы, мо- 
делирующие этот процесс, до сих пор имеют возможности, существенно 
уступающие возможностям самого обычного первоклассника. Созданы 
системы (т.е. машинные модели) понимания речи, доказавшие свою ис- 
ключительную практическую пользу. Например, можно построить ком- 
пьютеризованную систему заказа авиабилетов, ведущую диалог с пользо- 
вателем на обычном разговорном языке, и такая система будет правильно 
отвечать на большинство вопросов пользователя. Необходимость в нали- 
чии систем понимания речи становится очевидной, если вспомнить 
о возможностях, возникающих в связи с ускорением развития средств те- 
лекоммуникации. Все более привычными становятся электронные бан- 
ковские расчеты в интерактивном режиме, и постоянно растет интерес 
К разработке автоматизированных агентов, способных осуществлять по- 
иск и анализировать огромные объемы данных в Internet. Однако все Ta- 
кие приложения имеют довольно узкие области применения. Ограниче- 
ние области применения позволяет снизить уровень сложности разработ- 
ки за счет сокрашения размера словаря и упрощения задачи понимания 
смысла запроса. И хотя число узкоспециальных приложений для распо- 
знавания разговорного языка за последние несколько лет заметно вырос- 
ло, мы все еще не можем сказать, когда же машинные возможности по- 
нимания речи приблизятся к тому уровню понимания, на котором нахо- 
‚ дится человек. Разговорный язык является слишком выразительной 
формой коммуникации, ставящей перед ученым и программистом массу 
проблем. Несколько примеров представлено в табл. 7.7. 

Давайте немного поговорим о том, как выяснить значение предложе- 
ния или разрешить неоднозначность утверждения, чтобы подчеркнуть, 
что система понимания речи сильно зависит от наличия в ее распоряже- 
нии большой базы данных реальных знаний. Многовариантность возни- 
кает там, где мы не можем быть уверены, что наша интерпретация си- 
туации оказывается правильной, но общие знания дают нам определен- 
ную степень уверенности, а также дают возможность менять 
интерпретацию в свете информации, поступающей в дальнейшем. 
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Таблица 7.7. Некоторые трудности обработки разговорного языка 


Тип проблемы Пример. Объяснение 
Передача одинакового 1. Стюарт разбил вазу (1) выражено в активной форме 
смысла Разными 110 7 Basa была разбита (2) является пассивной формой (1) 
форме высказываниями Стюартом 
Роль предлога “с” 1. Незнакомка толкнула В (1) предлог “с” означает 
мальчика с девочкой —== объединение пострадавших, 


тогда как в (2) предлог “с” 


2. Незнакомка толкнула 
добавляет описание мальчика 


мальчика с собакой 


Многие слова имеют 1. Уход за ребенком В (1) “уход” обозначает постоянный 
несколько значений присмотр и заботу, тогда как 
в (2) “уход” обозначает одно- 
разовое конкретное действие 


2. Уход со сцены 


Смысловое согласование 1. Угон автомобиля В (1) имеется в виду опасность для 
СЛОВ является опасностью владельца, тогда как в (2) 

имеется в виду опасность 

для преступника | 


2. Угон автомобиля 
является опасным 


Порядок слов 1. Музей сохранил доход В (1) может иметься в виду, что был 
сохранен доход, ав (2) — что 


2. Доход сохранил музей : 
был сохранен музей 


Как и в случае большинства других сложных задач, задача реализации 
системы понимания речи на компьютере разбивается на несколько уров- 
ней. Тремя уровнями, рассматриваемыми в дискуссиях, посвященных сис-_ 
темам понимания речи, являются синтаксический уровень, семантический 
уровень и прагматический уровень. Синтаксический уровень касается того, 
как слова объединяются в структуры, называемые выражениями, и как вы- 
ражения объединяются в структуры, называемые предложениями. Для про- 
верки того, является ли некоторое предложение допустимым (т.е. грамма- 
тически правильным) и для разбиения предложения на составные части, 
обычно используются правила грамматики. Семантический и прагматиче- 
ский уровни касаются значения предложений. На семантическом уровне вы- 
деляется содержание (суть предложения), и для выражения содержания часто 
используются определенные логические формы. Например, предложения 


Джон ударил по мячу. 
Ударил ли Джон по мячу? 
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имеют одно и TO же содержание, которое в языке Prolog может быть 
представлено в виде: | 


ударил(джон, мяч). 
Имея возможность автоматизировать синтаксический и семантический 
анализ, мы можем утверждать: 


Джон ударил по мячу. ударил(джон, мяч) 


Затем мы можем спросить: 


Кто ударил по мячу? ударил(Х, мяч) 

По чему ударил Джон? ударил(джон, Х) 

Кто по чему ударил? ударил(Х, У) 

Прагматический анализ касается интерпретации предложения 
в контексте. Так, вопрос o6 интерпретации местоимения “Он” 
в предложении 
Он забил гол. 

может быть решен только в контексте (т.е. с использованием соседних 
предложений). Чтобы ответить на вопрос “Кто забил гол?”, мы должны 
решить, на кого именно указывает местоимение “Он”. Намерения гово- 
рящего тоже контекстно-зависимы. Предложение 


Можете ли вы приготовить чай? 


часто означает просьбу приготовить чай, но может иметь и буквальный 
смысл: “Умеете ли вы готовить чай?”. Контекст также используется для 
того, чтобы ограничить смысл определенных слов. Слово “любить” 
в обыденном использовании имеет смысл, выражаемый в форме 


любит(человек, объект). 


Это смысл допускает выражения типа “Джон любит Мери”, “Джон лю- 
бит работу” и “Джон любит шоколад”. В контексте отношений между 
людьми “любит” может быть ограничено формой 
любит(человек, человек), 
и в этом смысле мы можем предполагать, что “Венера” в 
любит(джон, венера) 
является именем женщины, а не названием планеты. В данном случае 


ограничение решает потенциальную неоднозначность между тем, что 
может обозначать “Венера” — имя человека или название планеты. 


Давайте теперь вкратце рассмотрим сам процесс синтаксического 
и семантического анализа. 
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7.5.1. Синтаксический анализ 


Фрагмент текста складывается из предложений, а каждое предложе- 
ние компонуется из выражений, которые могут содержать подвыражения 
и, в конечном счете, состоят из слов. Грамматика определяет способ, 
в соответствии с которым слова и выражения могут объединяться в пред- 
ложения. Грамматика может быть представлена с помошью любого из 
множества языков представлений, но чаще всего для этого используют 
формат правил вывода. Пример грамматики, представленной с использо- 
ванием правил вывода, показан на рис. 7.5. На рис. 7.6 показана структу- 
ра предложения “the dog ran across the road” английского языка (в пере- 
воде оно означает “собака бежала через дорогу”). 


$ —МРУРМРУ 
МР —>D АРР ММРРР 


РР —>P NP 
УР —>V МРМ PP 
AP —А АРАМ 


Рис. 7.5. Пример грамматики, выраженной правилами вывода. $ означает предложение, 
N— имя существительное, A— прилагательное, P— предлог, О — определитель 
(артикль), У — глагол, МР — именная группа, УР — глагольная группа, АР — группа при- 
лагательного, РР — предложная группа 


нь 
т 
pe oes 


D-the N-road 
Рис. 7.6. Дерево синтаксического анализа для предложения “The dog ran across the road” — 
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ae 


Предложение анализируется с целью выделения входящих в ero 
структуру выражений и с целью его проверки на соответствие граммати- 
ке. Для анализа предложения требуется также словарь. Словарь опреде- 
ляет категории слов (М, У, Р, А, О). Такой анализ может быть интерпре- 
тирован как поиск, при котором поддерживается стек дублирования для 
резервного копирования состояний, чтобы имелась возможность вернуть- 
ся из тупикового состояния. 


Пример 7.3. 


Иллюстрируйте то, как можно в виде поиска провести синтаксиче- 
ский анализ предложения “The dog ran across the road”. Используйте 
‚ следующую грамматику: 

S — МР УР 

МР -› РАР| М 

РР > Р NP 

УР > УРР 

АР > А М 
и следующий словарь: 


D — the М-> dog|road У -> ran P = across 


Решение 7.3. 
Процесс показан в табл. 7.8, а генерируемые при этом состоя- 


ния — на рис. 7.7. 


Таблица 7.8. Синтаксический анализ предложения “The dog ran across the road”, 
рассматриваемый как поиск 


Текущая попытка Стек слов Стек посещений — Стек дублирования 
$ — NP VP sa et the dog ran across the road NP VP 

NP — D AP the dog ran across the road D AP VP NP — DN 

О — the dog ran across the road AP VP МР — DN 

АР > АМ dog ran across the road VP NP — DN 

dog не относится к категории А, поэтому возврат 

МР > ОМ the dog ran across the road DN VP 

О — the dog ran across the road N VP 

М — dog ran across the road VP 
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Окончание табл. 7.8 


Текущая попытка Стек слов Стек посещений Стек дублирования 
VP > V PP ran across the road V PP 

V— run across the road PP 

PP > P NP across the road PNP 

Р > across the road NP 

NP — О AP the road D AP NP — DN 
О — the road AP NP — DN 
АР > АМ road AN NP — DN 
road не относится к категории A, поэтому возврат 

МР > ОМ the road DN 

О > the road | 

N — road 


Алгоритмы синтаксического анализа изучались достаточно интенсивно, 
поскольку синтаксический анализ является основой многих вычислительных 
систем, будь то компиляция ‘программ или проверка синтаксиса запроса 
к базе данных. Предложенный здесь пример предложения выглядит триви- 
альным, но любая реальная система понимания речи использует более слож- 
ную грамматику, позволяющую понимать, например, согласование множест- 
венного числа и времен. Обсуждения этих усовершенствований остаются за 
рамками нашей книги, но заинтересовавшиеся читатели найдут соответст- 
вующие указания в конце главы в разделе дополнительной литературы. 


7.5.2. Семантический анализ 


Семантический анализ часто реализуется как этап синтаксического 
анализа в результате добавления к правилам грамматики соответствую- 
щих свойств и использования сравнения образцов. Здесь мы имеем воз- 
можность сказать только несколько слов о том, как выделяется суть 
предложения в форме языка Prolog. Грамматика 


$ — NP VP 
NP +N 

М — name 
VP > V NP 


name —> мери | джон 
verb — любит 
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Е 
их ИХ 


У 


аа. 


D AN D 


(the) — Возврат the dog across ва es 
К "dog” 


AN D 


(the) Возврат the ‘ia 
K "road" 


Рис. 7.7. Состояния, генерируемые при синтаксическом анализе предложения “The dog ran 
across the road” 


допускает предложение “Джон любит Мери”. В языке Prolog оно имеет 
следующую форму. 

любит(джон, мери) 
Чтобы выделить эту форму в процессе синтаксического анализа, грамма- 
тика дополняется следующими свойствами. 

S(sem-vp sem-np) —› NP(sem-np) VP(sem-vp) 

NP(sem-np) — N(sem-np) 

N(sem-n) — (sem-n) 

VP(sem-v sem-np) — V(sem-v) NP(sem-np) 


name(sem-n) —› мери(“мери”) 


name(sem-n) — джон(“юйп”) 
verb(sem-v) —> любит(Лу.Ах.любит(х, y)) 
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Указанный здесь глагольный элемент (verb) содержит выражение, назы- 
ваемое А-исчислением. Оно используется для того, чтобы выполнить про- 
стую операцию, называемую А-редукцией, и упростить выражение. Напри- 
мер, выражение в форме 

((A x Px)a) 
может быть редуцировано (т.е. сведено) к “Ра”. Поэтому выражение 
Лу.Ах.любит(х, у), сформулированное в виде (Лу.Ах.любит(х, y)) “мери”), 
сводится к Ах.любит(х, мери), а ((Ах.любит(х, мери)) “джон”) сводится 
к любит(джон, мери). 

Такая А-редукция выполняется в порядке слева направо, и ее целью 
является приведение выражения к более легко читаемой (или распозна- 
ваемой) форме. 

В случае нашего простого примера можно представить сравнения 
свойств как серию вызовов функций. Левая сторона правила рассматри- 
вается как функция, а правая сторона выполняет серию вызовов других 
функций. Эти операции продолжатся рекурсивно до тех пор, пока слову 
не будет найдено соответствие и не будет возвращена строка. 

Предложение “Джон любит Мери” будет проанализировано с исполь- 
зованием “псевдо-С” нотации и с применением А-редукции там, где это 
необходимо. Учтите то, что некоторые скобки в грамматических выраже- 
ниях были опущены с целью сохранения простоты записи. 


вызов $ с аргументом “джон любит мери” 
возвращает (Ах.любит(х, мери) джон) = любит(джон, мери) 
S(sem-vp sem-np) { 
NP(sem-np) в результате вызова NP в конечном итоге возвращается джон 
VP(sem-vp) в результате вызова VP возвращается 
(Лу.Ах.любит(х, у) мери) = (Ах.любит(х, мери)) 
} 
NP(sem-np) { 
N(sem-np) 
} 
N(sem-n) { 
name(sem-n) 
} 
name(sem-n) { 
if “Джон” 
return sem-n = “Джон 
if “мери” 
return sem-n = “мери 


} 


VP(sem-v sem-np) { 
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V(sem-v) в результате вызова V возвращается (Лу.Лх.любит(х, y)) 
NP(sem-np) возвращается мери 

} 

V(sem-v) { 
зет-у = (Ау.Ах.любит(х, y)) 


7.6. Символьные связи нейронных сетей 


Идея использования нейронных сетей для выполнения задач, тради- 
ционно относящихся к области символьных систем искусственного ин- 
теллекта, апеллирует к интуиции инженеров и не только потому, что аб- 
страктные архитектуры искусственного мозга могут выдавать нестандарт- 
ные решения, но также и потому, что нейронные сети имеют целый ряд 
других весьма привлекательных свойств. Нейронные сети обучаются вы- 
полнению задачи с помощью адаптации к предлагаемым сети стимулам. 
Система, основанная на обучении, имеет возможность выводить знания 
автоматически, а также обнаруживать знания, которые являются специ- 
фическими для конкретной задачи и которые трудно представить в виде 
набора правил (например, как ехать на велосипеде). Сеть редко предлага- 
ет однозначный ответ, она обычно обеспечивает ответ в виде оценки, но 
для решения практических задач оценочные ответы кажутся как раз бо- 
лее подходящими. Нейронные сети могут также демонстрировать плав- 
ное снижение своей эффективности, сохраняя способность выполнять 
задачи (хотя и на худшем уровне), если часть структуры сети оказывается 
поврежденной. Нейронные сети могут иногда сохранять свою работоспо- 
собность, даже если какая-то часть архитектуры сети перестает функцио- 
нировать вообще. Наконец, нейронные сети могут быть реализованы 
в виде массовых параллельных структур, которые потенциально могут 
предложить более эффективную производительность по сравнению 
с машинами, использующими последовательную архитектуру. 

Символьные системы имеют свои преимущества. Средством комму- 
никации являются символы, и в процессе коммуникации происходит пе- 
редача большого объема знаний. Например, если кому-то скажут, что он 
погибнет, если коснется рельсов, по которым идут поезда метро, то, за 
редким исключением, человек серьезно отнесется к такому предупрежде- 
нию. Знание, выраженное в виде правил, может сохранить жизнь в си- 
туациях, которые ранее не были испытаны на практике. Пилот самолета, 
непреднамеренно вводящий самолет в штопор, лицом к лицу сталкивает- 
ся с ситуацией, несущей угрозу жизни, и хотя практика выхода из што- 
пора может помочь справиться с ситуацией опытному пилоту, неопыт- 
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ному пилоту может помочь знание соответствующих правил. Знание, со- 
общаемое в символьной форме, может также ускорить обучение. Труд- 
ным этапом подготовки любого пилота является обучение посадке. Хо- 
роший инструктор может предложить эмпирические правила, способные 
помочь пилоту-новичку и может повторить или подкорректировать инст- 
рукции, обнаружив неправильное или плохое их выполнение. 

Итак,. и символьная парадигма, и парадигма нейронных сетей имеют 
свои преимущества с точки зрения построения интеллектуальных систем. 
Поэтому неудивительным является тот факт, что проводилось (и прово- 
дится сегодня) немало исследований, посвященных возможности нала- 
живания связей между традиционным или символьным искусственным 
интеллектом и нейронными сетями. Эти связи очень разнообразны, но 
главным вопросом для многих приверженцев нейронных сетей является, 
по-видимому, вопрос о том, могут ли быть созданы нейронные сети, 
способные решать когнитивные задачи самого высокого уровня, какими 
являются, например, понимание речи и планирование. 

Материал, представленный в следующей главе, инспирирован философ- 
скими дебатами, которые велись на протяжении второй половины 1980-х 
годов (см., например, [Fodor, Pylyshyn, 1988])., Первые приложения ней- 
ронных сетей, последовавшие за возрождением интереса к нейронным се- 
тям в 1980-х годах, касались проблем распознавания, относящихся к низ- 
кому уровню, и выполняли, по существу, построение отображения множе- 
ства начальных данных во множество подходящих ответов. А поскольку 
велись оживленные дискуссии в отношении нейронных сетей как когни- 
тивных моделей, неудивительно и то, что некоторые философы и когни- 
тивные психологи начали интересоваться возможностями сетей первой ге- 
нерации. Было выяснено, что часть критических замечаний была основана 
на незнании того, как добиться от нейронной сети необходимого качества 
выполнения задания. Следует заметить, что критические вопросы все еще 
ждут своих достаточно ясных ответов, но мы надеемся, что с этим не будет 
проблем. по мере расширения наших знаний в области нейронных сетей. ` 

Тремя характерными особенностями, отвечающими за успех символьной 
парадигмы, являются композиционные структуры, сенситивная обработка 
структур и обобщение. Все эти три свойства оказываются тесно связанными. 

Композиционные структуры могут быть определены как иерархиче- 
ские структуры, в которых вся структура складывается из отдельных час- 
тей. Типичным примером таких структур являются деревья, а также на- 
следственные и агрегированные модели, используемые инженерами. 
Композиция структур является основой любой формы разработки конст- 
рукций: при попытках решения любой сложной задачи такая задача 
обычно разбивается на части. Мы уже видели в разделе 7.5, что компози- 
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ционный анализ играет большую роль в системах понимания речи. 
Структура выражений предложения представлялась в виде иерархии его 
частей, и семантический анализ предполагал, что смысл всего предложе- 
ния может быть найден как комбинация содержания частей. 

Трансформация —(Рл О) в его логический эквивалент (—Ру —0) явля- 
ется примером операции, сенситивно зависящей от структуры. Если Ри О 
заменить на Аи 5, то операция остается правомерной, так как структурной 
формой является суть: —(А л 5) трансформируется в логический эквивалент 
(—Ку —S). Данная операция может быть также представлена в виде более 
сложных выражений, поскольку все выражение может быть разбито на час- 
ти. Например, —((Ру А) л О) все равно имеет форму —(А л О), поэтому его 
логическим эквивалентом является (—(Ру К) у AQ). 

Абстракция обобщенных выражений тоже является естественной ча- 
стью символьной парадигмы. Аргументы в выражении лю- 
бит(одушевленный, объект) допускают любую комбинацию объектов, под- 
ходящих для рассматриваемого отношения. Это позволяет‘ системе демон- 
стрировать регулярное поведение. Если система регулярна, она должна 
допускать семантическое (и синтаксическое) обобщение. Регулярная система, 
понимающая “джон любит мери”, поймет также и “мери любит джона”. 

Наше обсуждение нейронных сетей в следующей главе сосредоточится 
именно на этих основных свойствах символьных систем. 


7.7. Резюме 


В области традиционного искусственного интеллекта значительные 
усилия тратятся на исследование представлений. Ключевым компонен- 
том любой интеллектуальной системы является способность адаптиро- 
ваться к изменениям среды, т.е. способность обучаться. Традиционные 
системы искусственного интеллекта для представления знаний исполь- 
зуют символьные структуры, так что вычисления могут рассматриваться 
как последовательность операций, применяемых к этим структурам 
в процессе поиска решения. Ниже перечислены некоторые ключевые мо- 
менты, на которые опирается традиционный искусственный интеллект. 


е Знание представляется в явном виде. 


e Структурные компоненты могут объединяться для того, чтобы стро- 
ить еще более сложные структуры. Это значит, что более крупные 
структуры могут быть скомпонованы из малых структур, и, наоборот, 
эти более крупные структуры могут быть разделены на меньшие. 


e (Символьные представления позволяют обобщение и абстрактное 
описание знаний. 
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7.8. Дополнительная литература 


‚ Если для вас тема искусственного интеллекта является новой, то хо- 
рошей книгой для знакомства с предметом является книга [Cawsey, 
1998], вышедшая в той же серии книг, что и та, которую вы держите 
в своих руках. Философское введение в область искусственного интел- 
лекта [Copeland, 1993] предлагает общий обзор хорошего уровня. Текст 
книги [Dean ef al., 1995] является хорошим изложением предмета с ря- 
дом интересных примеров, но это изложение слишком тяготеет к языку 
Lisp. Превосходным и всеобъемлющим изложением вопросов, относя- 
щихся к области искусственного интеллекта, является книга [Russell, | 
Norvig, 1995]. 

Одним из наиболее амбициозных и, вероятно, крупнейшим из со- 
временных проектов, посвященных искусственному интеллекту, явля- 
ется проект СУС. Проект СУС представляет собой массивную базу 
знаний, предназначенную для хранения знаний, которые могут по- 
требоваться для того, чтобы получить доступ к информации, содер- 
жащейся в энциклопедиях, и придать ей смысл. СУС хранит большие 
объемы тех общих знаний, которые мы используем каждый день 
и которые, казалось бы, не требуют никаких усилий для их примене- 
ния. Например, когда вам говорят о чьем-то дне рождения, вы знае- 
те, что день рождения этого человека отмечается в тот же день каж- 
дый год. Но СУС содержит не только это. Значительный объем зна- 
НИЙ Rg te был запрограммирован командой инженеров- 
специалистов, но теперь СУС находится на такой стадии, что уже 
может обучаться огромным объемам знаний самостоятельно с помо- 
щью чтения текста. СУС требуется определенная помощь в понима- 
нии текста, но главная цель команды СУС — достижение понимания 
естественного языка. Лучшим источником информации о СУС явля- 
ется \МеБ-страница CYC: 


http://www.cyc.com/ 


7.9. Упражнения 


1. Покажите, что выражение 


(P= QaR)=S 


будет проанализировано как допустимое в соответствии с граммати- 
кой, представленной в табл. 7.2. 
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Используя таблицу истинности, покажите, что —((Ру R) a О) эквива- 
лентно (—(Ру R) у-0).. 


На рис. 7.2 показан пример использования продукционной ‘системы 


для доказательства цели при следующих правилах и при условии, что 


T, Wu Ресть ИСТИНА. 


1 РлЯл В = цель 
2S=>R 

3 TAW=>Q 
4155 


Используйте правила вывода логики высказываний, чтобы дока- 
зать цель. 


$ — NP VP|NPV 
NP —> D AP|D N|NP PP 
PP — P NP 
VP > V NP|V PP 
АР — ААР|АМ 
Используя эту грамматику, постройте дерево синтаксического ана- 
лиза для: 
(a) “The little dog barked” (маленькая собака залаяла); 
(6) “The horse jumped over the fence” (лошадь перепрыгнула через 
изгородь). 
Выпишите состояния поиска, генерируемые в ходе синтаксического 
анализа предложений из упражнения 4. 
Как нужно изменить грамматику из упражнения 4, чтобы предло- 
жение “John found the book” (Джон нашел книгу) оказалось допус- 
тимым? 


Имеется база данных Prolog: 


часть(закрылок, крыло) 
часть(элерон, крыло) 
часть(крыло, самолет) 


Перефразируйте следующие вопросы и покажите, как Prolog отве- 
тит на них. 


(а) часть(закрылок, крыло). 
(6) часть(крыло, Х). 
(в) часть(Х, крыло). 
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8. Предположим, что к коду Prolog из упражнения 7 добавляется. | 


часты. Y) :- часты, Y), часты(Х, 2) 
(а) Как программа ответит на часть(закрылок, самолет)? Трассируйте 
соответствующий процесс сравнения. | | 


(6) Не видите ли вы каких-либо потенциальных проблем, которые 
могут возникнуть с указанным выше правилом? 
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[nasa 8 


Синтез символов с помощью 
нейронных сетей 


Задача. Выяснение некоторых связей между традиционным 
искусственным интеллектом и нейронными сетями. 


Цели. Вы должны понять: 


в чем состоят потенциальные преимущества 
комбинированного подхода на основе символьных 
представлений и нейронных сетей; 

что такое локальные и распределенные представления; 
какие подходы используются исследователями нейронных 
сетей для решения проблем понимания речи; 

что такое композиционное и систематическое представления; 
что такое “обоснование символов”. 


Требования. Знакомство с материалом глав 1-7. 


8.1. Нейронные сети в символьной форме 


В этой главе мы не рассматриваем новый искусственный интеллект 
в целом, а только аспект, связанный с нейронными сетями, а также некото- 
рые показательные примеры новейших исследований, иллюстрирующие 
фундаментальные понятия этой области. Вместо термина “нейронная сеть” 
часто используется термин “коннекция”, а термин “коннекционизм” исполь- 
зуется для обозначения универсальной парадигмы нейронных сетей. При- 
верженцы коннекционизма — ученые, стремящиеся “обуздать” вычисли- 
тельный потенциал нейронных сетей, не касаясь непосредственно биоло- 
гического реализма, в отличие от другого направления исследований 
нейронных сетей, где нейронные сети используются в попытке найти объ- 
яснение процессов, происходящих внутри мозга человека. 


218 Глава 8. Синтез символов с помощью нейронных сетей 


Существует несколько заслуживающих внимания моделей коннекций 
(см. список дополнительной литературы в разделе 8.8), разработанных 
с целью кодирования и последующей обработки символьных структур. 
В этой главе мы сначала рассмотрим архитектуру нейронной сети, назы- 
ваемую рекурсивной автоассоциативной памятью (КААМ — Recursive 
Autoassociative Memory). Для подробного обсуждения сети КААМ есть 
несколько причин. Во-первых, сеть КААМ может быть описана почти 
или даже вообще без использования математики. Во-вторых, появление 
сети КААМ — серьезное предупреждение для критики, заявляющей, что 
нейронные сети не могут вести себя композиционным и систематиче- 
ским образом. Кроме того, сеть КААМ вызвала огромный интерес со 
стороны сообщества исследователей нейронных сетей, уже проведено 
множество исследований и имеется обширная литература на эту тему. 
Наконец, что, возможно, более важно, архитектуру этой сети можно ис- 
пользовать при исследовании некоторых ключевых вопросов. 

После разработки архитектуры сети КААМ и выяснения некоторых 
вопросов, касающихся представлений, были предложены две модели 
понимания речи. Эти модели имеют достаточно сложную архитектуру, 
и мы не ставим своей задачей обеспечить читателю глубокое понима- ~ 
ние реализаций этих моделей. Целью представления здесь этих и сле-_ 
дующих за ними моделей компьютерного общения является информи- 
рование читателя о том, что специалисты по нейронным сетям уже пы- 
таются решать некоторые весьма сложные проблемы, относящиеся 
к сфере традиционного искусственного интеллекта. И хотя сегодня та- 
кие исследования находятся на ранней стадии, эти модели дают воз- 
можность почувствовать, как в будущем на основе базовых нейронных 
структур могут разрабатываться сложные системы. Мы на самом деле 
находимся в самом начале разработки “искусственных нейронных сис- 
тем”, и первые результаты говорят о том, что нас при этом еще могут 
ожидать разные сюрпризы. 

В этой же главе будут рассмотрены важные, но трудные для понима- 
ния вопросы абстрактного обобщения и обоснования символов. 

Читатель не должен сдаваться, если материал этой главы покажется 
ему слишком трудным. Некоторые из обсуждаемых ниже принципов 
сложны для восприятия, а реальное их понимание может быть получено 
только в результате изучения рекомендованной литературы. Эта глава 
и предполагалась как более трудная по сравнению с остальными, но ее 
главная задача — ознакомить читателя с вопросами, которые, несомнен- 
но, являются важными и которые постепенно привлекают к себе то вни- 
мание, которого они заслуживают. 
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8.2. Рекурсивная автоассоциативная память 


Архитектура сети КААМ была предложена Поллаком [Pollack, 1990]. 
Целью КААМ является. представление символьных структур средствами 
нейронных сетей. Символьные структуры представляют собой деревья 
фиксированной валентности. Валентностью называют число ветвей, выхо- 
дящих из каждой вершины, и фиксированная валентность означает, что 
все вершины должны иметь одно и то же число выходящих из них ветвей. 

На рис. 8.1 показаны 15 бинарных деревьев (валентность 2). Эти дере- 
вья идентифицируют структуры выражений, генерируемых в соответст- 
вии со следующими правилами грамматики: 


$ -> МР УР| МРУ 

NP > D AP|D М| МР РР 
PP — P NP 

VP > У NP|V PP 

АР -› ААР|А М 


где используемые символы имеют те же значения, что и на рис. 7.5. 

Сеть КААМ является по существу автоассоциативной сетью с обратным 
распространением ошибок (см. главы 2 и 4). Во входном и выходном слоях 
КААМ элементы организованы в поля, где каждое поле содержит одинаковое 
число элементов. Число полей определяется валентностью кодируемых де- 
ревьев, а число элементов в скрытом слое соответствует числу элементов од- 
ного поля. На рис. 8.2 показано два примера соответствующей архитектуры. 

Давайте проигнорируем способ обучения сети КААМ и рассмотрим 
только то, как эта сеть создает представление и снова разбивает его на со- 
ставные части. Если взять сеть RAAM, обученную представлять некоторое 
множество деревьев, то эту сеть можно рассматривать как два автомата: 
первый слой весовых значений является автоматом для создания представ- 
лений деревьев, а второй слой весовых значений — автоматом, берущим 
созданное представление и разбивающим это представление на составные 
части. Первый автомат будем называть кодером, а второй — декодером. 
Представление некоторой структуры в сети КААМ порождается значения- 
ми активности скрытого слоя. В процессе создания представления всего де- 
рева КААМ генерирует представления для каждой внутренней вершины (Т.е. 
для каждого поддерева). Tak, кодирование (D N)(P(D N)) ведет к появлению 
представлений для (D М) и (P(D N)), генерируемых в процессе выполнения. 
Деревья являются рекурсивными структурами, и КААМ формирует их пред- 
ставления некоторым рекурсивным образом с помошью обратной подпитки 
входного слоя ранее сформированными представлениями частей, происхо- 
дящей в определенные моменты времени. Кодирование структуры 
(DN )(P(D N)) показано на рис. 8.3, а ее декодирование — на рис. 8.4. 
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1.(AN) 2.(A(AN)) 
3.(A(A(AN))) 4.(D(A(A(AN)))) 
5.(P(DN)) 6.((DN (PDN) ) 
7.(V(DN)) 8. (D(AN )) 

9.(P (D(AN ) )) 10.(D(AN )) 
11.(DN)V) 12.(V (D(AN))) 
13.((DN)(V(D(AN)))) 14.(V(P(DN))) 


15.(D(AN))(V(ON)))) 


Рис. 8.1. Эти деревья взяты из [Pollack, 1990]. Деревья показывают структуру выражений, 
из которых состоят предложения (или части предложений). Обратите внимание на то, что 
многие деревья являются поддеревьями (т.е. частями) других деревьев. Например, дере- 
во 1 является частью дерева 2, а дерево 2 является частью дерева 3. Точно так же, дере- 

вья 8 и 14 являются частями дерева 15 
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Декодер 


ке ока ts 


a ae 


Рис. 8.2. Архитектура a представляет двоичную сеть RAAM, а 6 — троичную 


) 
1. ma Ha первой стадии векторы, представляющие символы D и М, 
подаются на рассмотрение кодирующей части сети. 


G ь Выходом является “сжатое” (помечаемое апострофом) 
представление для (DN) 
D N | 


2. (P(DN))’ 
aaa Второй стадией является предъявление на рассмотрение сети 
“сжатого” представления для (DN) (со стадии 1) вместе 
с векторным представлением для Р с целью создания (Р(ОМ))' 


3. CONE). Третьей стадией является предъявление Ha рассмотрение 


сети “сжатого” представления для (DN) (со стадии 1) вместе 
= > с (P(DN))’ (со стадии 2) с целью создания сжатого представления 
для всего дерева — ((DN)(P(DN)))’ 
№ (ФМ) 


Рис. 8.3. Кодирование (DN)(P(DN)). Одна и Ta же сеть показана на трех различных 
стадиях кодирования представления 


Терминальные символы (О, А, М, У и Р) представляются в сети 
векторами. Как правило, используются ортогональные векторы, 
и в данном случае это означает, что каждый символ представляется 
вектором с пятью элементами (поскольку имеется пять символов), 
и у каждого из соответствующих векторов один элемент равен 1, а все 
остальные равны 0 (все векторы должны быть разными и только 
с одним битом, равным 1). Примером подходящего набора векторов 
будут следующие векторы: 
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1. (DN)’ (P(DN))’ ie D oN 
pe) sb 


а — 


((DN\PON))Y’ м 


Представление для всего дерева (DN)’ со стадии 1 рассматривается 
подается на вход декодера и декодируется снова в Ви М 
к ры " а ой 
(P(DN)) | (DN)’ 
(P(DN))’ со стадии 1 рассматривается (DN)’ со стадии 1 рассматривается 
и декодируется снова в Ри (DN)’ и декодируется снова в Ви М 


Рис. 8.4. Декодирование (DN)(P(DN))’. Одна и та же сеть показана на четырех различных 
стадиях декодирования представления 


D 10000, 
N 00100, 
Р 00001, 
A 01000, 
У 00010. 


Размерность (число битов) векторов, представляющих символы, опре- 
деляет минимальное число элементов, составляющих поле КААМ. Скры- 
тый слой, в конечном итоге, порождает сжатое представление, поскольку 
число элементов в этом слое меньше числа входных элементов. Но норма 
сжатия, которая при этом может быть достигнута, зависит от конкрет- 
ного набора учебных данных, в связи с чем может возникнуть необходи- 
мость дополнить соответствующие терминальным символам векторы ну- 
лями. Например, сеть КААМ, используемая для представления деревьев, 
изображенных на рис. 8.1, имела архитектуру типа 20-10-20. Таким обра- 
зом, каждое поле содержало десять элементов, а это значит, что векторы 
терминальных символов требовалось дополнить пятью нулями. Подобно 
большинству других сетей, число скрытых элементов определяется из 
эксперимента (в ходе которого находится архитектура, обеспечивающая 
удовлетворительное решение задачи). 
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При декодировании требуется проверка, позволяющая выяснить, чем 
является появляющийся в поле выходного слоя образец — терминальным 
символом или образцом, требующим сохранения для дальнейшей обра- 
ботки в скрытом слое по обратной связи. Для такой проверки есть не- 
сколько возможностей, но в случае ортогональных символов проще всего 
проверить, будет ли один элемент равен единице, а все остальные — ну- 
ЛЮ. Если наличие терминального символа не подтверждается, то вывод 
может быть снова пропущен через скрытый слой. 


8.2.1. Обучение ВААМ 


Процесс обучения в данном случае соответствует процессу обучения 
любой автоассоциативной сети, но с требованием возврата во входной слой 
ранее полученной информации. Правила такой обратной связи такие же, 
как для и конструкции, обсуждавшейся выше. Терминальным символам 
соответствуют векторы, во входном множестве фиксированные, но так как 
весовые коэффициенты в ходе обучения постоянно корректируются, пред- 
ставления всех других векторов должны меняться. Например, скрытое 
представление для (D М) в ходе обучения изменяется, так как постоянно 
меняются весовые значения. Такое изменение во множестве учебных образ- 
цов называется эффектом движущейся цели. Когда сеть приближается к точке 
сходимости, изменения движущихся целей становятся очень маленькими. 

Что касается реализации сети КААМ, единственной дополнительной 
сложностью по сравнению с обычными автоассоциативными сетями 
с обратным распространением ошибок является необходимость возврата 
ранее сформированных в скрытом слое образцов снова во входной слой. 
Этот вопрос легко решается, если использовать структуру стека данных 
для хранения информации о внутренних узлах. Представление последо- 
вательностей с помощью КААМ оказывается даже более простым. На- 
пример, последовательность, соответствующая слову BRAIN, может быть 
представлена в виде дерева, показанного на рис. 8.5. Терминальный сим- 
вол NIL используется просто как пробел. Кодирование начинается, как 
обычно, снизу вверх, и В подается на рассмотрение левому входному по- 
лю, а МП. — правому входному полю. Ввиду того, что сжатые представ- 
ления подаются по обратной связи только правому входному полю, левое 
и правое входные поля (и, таким образом, соответствующие выходные 
поля) могут содержать разное число элементов: ограничение заключается 
только в том, что скрытый слой и правые входное и выходное поля 
должны быть одного и того же размера. Для последовательности нет не- 
обходимости хранить представления в стеке, так как ранее сжатые эле- 
менты подаются обратно во входной слой. 
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NIL 


Рис. 8.5 Представление слова BRAIN в виде дерева 


Пример 8.1. 


@ 


2, 


Продемонстрируйте порядок кодирования и декодирования би- 


нарного дерева 


((D (A N)) (У(Р (О \)))). 
Для предложенного ниже учебного множества выясните, сколь- 
ко деревьев научится представлять сеть КААМ, если использо- 


вать это множество? 


(D(A (A (AN )))) 
((D N )(P(D М) ) 


(V(DN)) 


(P (D (AN ) )) 


((D N ) V) 


((D м) (V (D (AN ) ))) 
((D(AN))(V(P(DN)))) 


Решение 8.1. 


1. 


Порядок кодирования показан в табл. 8.1, а порядок декодиро- 


вания — в табл. 8.2. 


2. Весь соответствующий набор деревьев показан на рис. 8.1. 


Таблица 8.1. Порядок кодирования бинарного дерева из примера 8.1 


Левая ветвь 


D 
Р 
V 
A 
D 


(D (A N)) 


N 

(ОМ) 

(P (D N)’ 

N 

(AN): 

(V (P (D N)))’ 
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Правая ветвь 


Скрытое представление 
(D N)’ 

(P (D N))’ 

(V(P (D N)))’ 

(АМ) 

(D (A N)) 

((D (A N)) (У (P (D N))))’ 
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Таблица 8.2. Порядок декодирования бинарного дерева из примера 8.1 


Скрытое представление Левая ветвь Правая ветвь 
((D (A N)) (V (P (D N))))’ Ам = (V (P (D N))) 
(D (A N))’ D (A N)’ 

(АМ) А N 

(V (P (D N)))’ pe | (P (D N)’ 

(P (D N))’ Р (D N)’ 

(D N)’ D N 


8.3. Представления нейронных сетей 


Архитектура КААМ использует структуры переменного размера (т.е: 
деревья разной длины) и отображает их в векторы фиксированной дли- 
ны. Такое отображение имеет ряд определенных свойств, которые ми 
сейчас и рассмотрим. 


8.3.1. Локальные и распределенные представления 


Локальное представление возникает тогда, когда сеть устроена таким 
образом, что отдельные элементы означают конкретные понятия. На- 
пример, один элемент может обозначать “собака”, другой — “лошадь”, 
третий — “кролик”, четвертый — “волк” и т.д. Но чаще представления 
для одного понятия бывают распределенными. Идея распределенного 
представления иллюстрируется схемой на рис. 8.6. Распределенное пред- 
ставление до известной степени оказывается толерантным к дефектам, 
так как повреждение одного или нескольких элементов не обязательно 
означает, что сеть утратит все представление соответствующего понятия. 
В распределенном представлении элемент только участвует в представле- 
‚ нии понятия (и таких элементов обычно несколько). Когда понятие 
представлено в распределенном виде, оно выглядит как распределенный 
набор значений активности. Левое поле входных элементов в последова- 
тельной сети КААМ действует как локальное представление в случае ор- 
тогональных терминальных векторов: только один элемент в терминальном 
векторе имеет значение 1, поэтому только один элемент перейдет во 
“включенное” состояние. Сжатые представления, создаваемые скрытыми 
элементами, обычно оказываются распределенными в том смысле, что, на- 
пример, одна буква соответствующей слову последовательности представ- 
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ляется несколькими скрытыми элементами. Для представления понятий 
распределенная архитектура оказывается более экономичной, чем JIO- — 
кальная. Например, сеть, имеющая п двоичных элементов, при локаль- 
ном подходе может представить только п понятий, а при использовании 
распределенной архитектуры можно представить порядка 2” понятий. 


О 


ИС 


ак ба Охватывает элементы, участвующие в понятии “собака” 


----------- Охватывает элементы, участвующие в понятии “волк” 


Охватывает элементы, участвующие в понятии “кролик 


& Элемент, участвующий в понятиях “собака”, 
“волк” и “кролик” 


© Элемент, участвующий в понятиях “собака” и “волк” 
@ Элемент, участвующий в понятиях “волк” и “кролик” 


Рис. 8.6. При распределенном представлении элементы участ- 
вуют в представлении нескольких понятий, а понятия представ- 
ляются несколькими элементами 


Некоторые представления оказываются не вполне распределенными. 
Например, для представления понятия можно использовать двоичный 
вектор, в котором каждый бит означает присутствие или отсутствие опре- 
деленного признака. Так, для понятия СОБАКА отдельные биты могут 
представлять признаки типа “имеет хвост”, “любит кости” и т.д. При та- 
кой форме представления каждое понятие представляется несколькими 
элементами, но каждый элемент представляет только один признак. 

Распределенные представления все же имеют и некоторые недостат- 
ки. Предположим, что нейронная сеть обучается принимать решение 
о том, кому можно дать разрешение на выдачу банковского кредита. Сеть 
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может быть обучена на таких признаках, как, например, уровень доходов, 
текущая стоимость имеющихся ценных бумаг, имущественные активы, 
ежемесячные расходы, длительность работы с банком и т.д. В нашем 
распоряжении имеется огромная база данных предыдущих займов, и эта 
база данных включает множество должников, которые не выполнили 
свои обязательства. Сеть обучается и хорошо работает с большим набо- 
ром тестовых данных. После этого мы задаемся вопросом: какое знание 
использует сеть при принятии решения? Информация об этом может 
оказаться весьма полезной, поскольку мы можем научиться у сети чему- 
нибудь новому и, что на самом деле более важно, мы сможем больше до- 
верять способности сети выполнить задачу, если выясним, как осуществ- 
ляется выбор. Чтобы выяснить, какие знания используются для принятия 
решения, нам необходимо знать, как сеть представляет информацию, 
а для этого, в свою очередь, нужно знать, что представляют отдельные 
элементы и весовые значения. Ответить на эти вопросы в случае исполь- 
зования распределенных представлений не всегда просто. 


8.3.2. Пространственное сохранение структуры 


Обработка структур переменной длины с помощью сети фиксирован- 
ных размеров является для коннекционистов проблемой нетривиальной. 
В будущем большинство вычислительных систем на основе нейронных 
сетей должно иметь модульную архитектуру, где одна сеть должна будет 
сообщаться с другой сетью, а построение систем на основе интерфейсов, 
предполагающих обмен данными фиксированных размеров, может упро- 
стить задачу. Кроме того, если все представления должны быть одной ши- 
рины, то соответствующие понятия можно будет проверять на сходство. 

Сеть КААМ отображает символьную структуру в пространственное 
представление в том смысле, что п значений активности скрытых элемен- 
тов лежат в п-мерном пространстве. Символьные структуры компонуются 
с помошью конкатенации составляющих. Простым примером является 
слово BRAIN, которое компонуется как конкатенация входящих в него OT- 
дельных букв. Векторное представление слова ВКАПМ может быть получе- 
но с помощью конкатенации терминальных кодов. Например, используя 5- 
битовые коды для букв, слово BRAIN можно представить как ‘10000 01000 
00100 00010 00001’. Конкатенация двоичных кодов для построения пред- 
ставлений нейронных сетей оказывается довольно неудобной: словам раз- 
ной длины будут соответствовать векторы разной длины, если их не допол- 
нять достаточным количеством нулей. При представлении с помошью по- 
следовательной конкатенации бинарных деревьев или деревьев более 
высокой валентности может теряться важная информация, ввиду того, что 


228 Глава 8. Синтез символов с помощью нейронных сетей 


при этом утрачивается информация об относительном положении подде- 
ревьев. Например, при обработке деревьев от вершины к основанию 
u(V(DN)), и (DN) У) при конкатенации дадут ‘DNV’. Можно избежать 
этого, указав в векторе положение каждой вершины дерева, но этот метод 
оказывается довольно громоздким. Сеть КААМ комбинирует представле- 
ния функциональным методом. Кодер можно интерпретировать как рекур- 
сивно вызываемую функцию. Формирование слова ВКАПМ тогда будет 
выглядеть, как КМ КГ f(A КК КВ NIL))))), где f(x) обозначает кодирование 
в сети КААМ. При использовании функционального вида отображения 
поддеревья и все дерево в целом накладываются одно на другое. 

Структура деревьев на рис. 8.1 управляется правилами грамматики вы- 
ражений. Эти правила дают явные знания, указывающие допустимые 
структуры выражений и их взаимные связи, но эти знания становятся ме- 
нее явными (или неявными) в случае деревьев. Например, если вас просят 
разбить деревья на группы, вы можете использовать для этого разные кри- 
терии, такие как длина дерева, число общих поддеревьев или число терми- 
нальных символов как меру длины дерева и т.д. Задача группирования не- 
тривиальна, но существует еще явное группирование, определяемое прави- 
лами грамматики: одни деревья попадают в группу S (sentence — 
предложение), другие же — в группы NP (noun phrase — именная группа), 
VP (verb phrase — глагольная группа), PP (preposition phrase — предложная 
группа) и AP (adjective phrase — группа прилагательного). Одно правило для 
оценки сходства может сделать задачу группирования тривиальной — приме- 
ром является группирование слов, основанное на их длине (числе символов). 
Несколько правил для оценки сходства может порождать проблемы, так как 
в результате делается попытка параллельно удовлетворить несколько конку- 
рирующих ограничений. Пространственное представление структуры делает 
задачу группирования по сходству более простой, так как оказывается воз- 
можным прибегнуть к группированию, основанному на метрике типа евкли- 
дова расстояния (см. главу 3). Однако, для того, чтобы группирование имело 
смысл, мы должны опираться на пространственное представление, несущее 
в себе некоторую полезную информацию о структуре. K счастью, сеть КААМ 
генерирует представления, сохраняющие структурную информацию. На 
рис. 8.7 изображена иерархическая кластерная диаграмма представлений, 
генерируемых с использованием деревьев, показанных на рис. 8.1. Эти 
пространственные представления были получены 'с помошью сети 
(S)RAAM (см. [Callan, Palmer-Brown, 1977]), которая является математиче- 
ской моделью сети КААМ, но и обычная сеть КААМ порождает подобное 
группирование (см. [Pollack, 1990]). Кластерная диаграмма показывает, что. 
почти все деревья (кроме одного) попадают в определенную категорию 
в соответствии с правилом выражения, которому соответствует дерево. 
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Рис. 8.7. Кластерная диаграмма представлений сети (S)RAAM для деревьев синтаксиче- 
ского анализа 


Кластеризация на рис. 8.7 может выглядеть несколько случайной, но 
в общем сеть КААМ обеспечивает отображение структур в векторы фик- 
сированной длины, в некотором смысле сохраняющее сходство. 

Пространственное представление структур интуитивно полезно. Для 
того чтобы избежать хранения нескольких копий одного и того же зна- 
ния и обеспечить доказательство по умолчанию в случае отсутствия нуж- 
ной информации, как инженеры программного обеспечения, так и прак- 
тикующие специалисты по искусственному интеллекту используют тех- 
нику наследственности. Наследственность может порождать проблемы 
в некоторых исключительных ситуациях (например, страус не наследует 
признак “умеет летать” от класса птиц) и неоднозначность, когда не- 
сколько родительских элементов имеют одно и то же свойство (от какого 
из родителей тогда наследуется соответствующее свойство?): Для разре- 
шения таких проблемных ситуаций можно вводить дополнительные пра- 
вила, но по определенным причинам (сходным с проблемами выяснения 
подобия) эти правила могут оказаться чрезмерно ограничительными из- 
за символьной природы формализма моделей, использующих наследст- 
венность. Попытки преодолеть проблемы в сетях КААМ, связанные с ис- 
ключительными ситуациями и неоднозначностью, предпринимались 
в [Boden, 1996]. Предложенный в указанной работе подход опирается на 
пространственные представления ассоциаций объектов. 

Структура передается сети КААМ путем согласования времени предъ- 
явления поддеревьев входному слою. Можно было бы возразить, что 
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структуры должны возникать каким-то более естественным образом. На- 
пример, при восприятии речи говорящего наши органы чувств выделяют 
последовательности слов, не имеющие явных ярлыков структуры выра- 
жения или категоризации слов. В [Elman, 1990] было продемонстрирова- 
но, что иерархическая категоризация может возникать из последователь- 
ности. В одном из своих экспериментов Элман (Elman) использовал про- 
стую рекуррентную сеть (сеть SRN, см. главу 5), с помошью которой из 
порядка слов должны были выявляться лексические классы. Для созда- 
ния 10000 двух- и трехсловных фреймов предложений использовались 
шаблоны. Пример фрейма, показанный на рис. 8.8, генерирует предло- 
жения из трех слов — например, “man see woman” (т.е. “мужчина видит 
женщину”). Каждое слово кодировалось как 31-битовый вектор и име- 
лось 150 контекстных элементов. Все рассматривавшиеся 27534 слова, 
содержащиеся в 10000 предложениях, были связаны конкатенацией, в ре- 
зультате чего был создан один (27534 x 31)-битовый вектор. Каждое сло- 
во подавалось во входной слой сети SRN вместе с предыдущим контек- 
стом, а задачей сети было предсказание следующего слова последова- 
тельности. Сеть обучалась в течение шести полных циклов 
последовательности, после чего весовые значения были заморожены (Т.е. 
никакого обучения больше не проводилось). Последовательность была 
пропущена через сеть еще один раз, и все значения активности скрытых 
элементов были сохранены. Каждое слово последовательности плюс кон- 
текст (27534 единиц) были представлены 150-мерными векторами. И хотя 
на самом деле имелось только 29 уникальных слов, ожидалось, что все 
27534 вектора окажутся уникальными ввиду того, что они комбинирова- 
лись с контекстной информацией. Суммарный вектор каждого слова вы- 
числялся с помошью всех скрытых векторов, активизированных соответ- 
ствующим словом (вместе с контекстом). Эти векторы затем были сгруп- 
пированы на основе использования иерархической — техники 
кластеризации. Кластеризация показала пространственное разделение 
глаголов и существительных, а также выявила иерархическое размещение 
категорий слов, как показано на рис. 8.9 и 8.10. 


NOUN-HUM VERB-TRAN NOUN-HUM | 
oi rate си 
man woman — see chase man woman 


+ 


Рис. 8.8. Шаблон для генерирования предложений из трех слов (NOUN означает сущест- 
вительное, а VERB — глагол} 
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Рис. 8.9. Абстрактная схема кластерной диаграммы. Все представления являются существи- 
тельными; животные и люди являются одушевленными, пища и посуда — неодушевленными 


СУЩЕСТВИТЕЛЬНЫЕ 
ОДУШЕВЛЕННЫЕ | НЕОДУШЕВЛЕННЫЕ 
ЖИВОТНЫЕ ЛЮДИ ПИЩА ПОСУДА 


Рис. 8.10. Структура, отображающая пространственное размещение имен 
существительных, полученная в результате кластеризации значений актив- 
ности скрытых элементов простой рекуррентной сети. Иерархия является 
неявной в том смысле, что каждый уровень этой иерархии определяется 
пространственной близостью 


Здесь существует опасность слишком увлечься сохранением структур 
в пространственном представлении: подобные структуры в конечном 
итоге размещаются в расположенных рядом областях пространства. Ранее 
уже было отмечено, что выяснение подобия символьных структур может 
оказаться непростым делом. Но задача становится совсем сложной, когда 
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для оценки сходства вообще нет критериев. Например, совсем просто. 
увидеть, соответствуют ли два логических утверждения форме 
“выражение л выражение”. Такие формы ищутся для того, чтобы ска- 
зать, будут ли применимы к данному утверждению правила преобразова- 
ния или правила вывода. В этом смысле выяснение сходства оказывается 
простым делом, поскольку символьные структуры создаются с помощью 
конкатенации элементарных структур (атомов). В случае числовых векто- 
ров меры сходства оказываются простыми из-за того, что мы можем оце- 
нивать сходство по евклидову расстоянию. Однако использование евкли- 
довой метрики, скажем для кластеризации, оказывается при оценке сход- 
ства структур полезным только тогда, когда вектор, в который 
отображается структура, сохраняет информацию об этой структуре. Отно- 
сительное пространственное размешение представлений сети КААМ мо- 
жет, например, существенно измениться при использовании для терми- 
нальных символов случайных векторов. Поэтому обычно терминальным 
символам назначаются ортогональные векторы битов. Вопросы, рассмот- 
ренные в данном разделе, подробно рассматривались в [Sharkey, 
Jackson, 1995]. Мы здесь можем только отметить, что обычно в сетях 
типа КААМ имеется возможность получить представления, которые 
в результате их кластеризации проявят определенные характеристики. 
данных (например, группируя их как существительные, глаголы и т.д. 
или группируя их по значениям). 


8.3.3. Контекст 


Нейронные сети, распределяющие и накладывающие представления, 
обеспечивают контекст — свойство, которое многие коннекционисты 
провозглашают главным и наиболее важным преимуществом коннекцио- 
низма. Предположим, что вам никогда не встречалось словосочетание 
“палочки для еды”, и в некотором тексте вам попадается на глаза пред- 
ложение “Им подали шпинат с палочками для еды”. Вы не знаете, что 
такое “палочки для еды”, но на этой стадии вы можете предположить, 
что это или что-то съедобное, или, возможно, принадлежности для 
приема пищи. Позже вы читаете: “Палочки для еды вместе с остальными 
кухонными приборами поместили в посудомоечную машину”. В резуль- 
тате ваша интерпретация “палочек для еды” переместится от возможной 
интерпретации их как вида овошей к более вероятной интерпретации их 
как принадлежности для приема пищи — такой вывод оказался возмож- 
ным ввиду того, что вы знаете, что такое “ложка” и “вилка”, а “палочки 
для еды” оказались в том же контексте. Элман (Elman) продемонстриро- 
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„ 


вал этот тип концептуального вывода в эксперименте, описанном выше. 
Когда во всех 10000 предложениях Элман заменил слово “тап” (человек) 
словом “70?” (отсутствующим в словаре) и подал эти видоизмененные 
предложения на рассмотрение ранее обученной сети, слово “702” показа- 
ло те же пространственные связи, что и слово “тап”. 

Рассматриваемый нами тип нейронной сети порождает разные пред- 
ставления для одного и того же слова, появляющегося в разном контек- 
сте. Например, “лимонад” в выражении “баночный лимонад” будет 
иметь представление, отличное от его представления в выражении 
“бутылочный лимонад”. Это кажется неудобным, поскольку само слово 
в символьном печатном виде выступает как фиксированный образ, не за- 
висящий от контекста (если не принимать во внимание различия 
‚ в шрифте или размерах). Контекстная зависимость представлений ставит 
перед коннекционистами трудные проблемы при попытках выполнения 
вычислений определенного типа (например, при реализации структурно- 
сенситивных процессов; см. также примеры, о которых речь пойдет ни- 
же). Однако это свойство кажется полезным. Возвращаясь к примеру 
с бутылкой/банкой лимонада, заметим, что хотя “лимонад” и остается 
одной и той же прозрачной жидкостью и в бутылке, и в банке, некото- 
рые знатоки могут замечать разницу во вкусе в зависимости от того, 
в какую упаковку эта жидкость разлита. Мы должны ожидать, что пред- 
ставяения “понятий лимонада” окажутся очень близкими в семантиче- 
ском пространстве, но не в точности одинаковыми, чтобы разница в за- 
висимости от контекста оказалась вполне разумной. 

В [Kohonen, 1990] было продемонстрировано генерирование семанти- 
ческой карты слов с помошью самоорганизующейся карты признаков 
(см. главу 3). С помощью метода, в некотором смысле подобного методу 
Элмана, Кохонен с помощью шаблона получил набор трехсловных пред- 
ложений (см. раздел 8.3.2). Предложения объединялись конкатенацией, 
и контекст для каждого слова определялся с помощью усреднения по всем 
словам, непосредственно предшествующим данному слову и следующим за 
ним. Вектор каждого слова получался в результате конкатенации кода век- 
тора слова и близлежащего контекстного вектора (некоторые детали этого 
процесса здесь опускаются). Затем вектор-результат использовался для обу- 
чения самоорганизующейся карты признаков. Получаемая семантическая 
карта показала разделение слов на существительные, глаголы и наречия, 
а также дальнейшую семантическую организацию внутри этих регионов. 
Кохонен отмечает: “Мы ясно видим, что контекст “заставляет” словар- 
ные элементы запоминать позиции, в которых их размещение отражает 
как грамматические, так и семантические связи”. 


234 Глава 8. Синтез символов с помощью нейронных сетей 


8.3.4. Символьное представление и представление 
нейронных сетей 


Символы произвольны в том смысле, что один символ может быть заме- 
нен другим. Если мы в некотором тексте слово ТАБЛИЦА заменим словом 
АЦИЛБАТ, читатель может счесть текст немного неудобным для восприятия, 
но все еше доступным для понимания. Символ ТАБЛИЦА ссылается на объ- 
екты, опыт работы с которыми читатель имеет, и простое изменение метки 
на АЦИЛБАТ на этот опыт не повлияет. Символы являются просто метками 
и воспринимаются как представления только тогда, когда используются на- 
блюдателем, имеющим приобретенные (на основе опыта) знания о том, на 
что ссылается конкретный символ. Другими словами, символы есть ничто 
без их творцов. Символы являются дискретными сущностями и то, на что 
они ссылаются, иногда зависит от имеющегося рядом текста. Например, 
“уход” в предложениях “Уход за новорожденным” (забота) и “Уход артиста 
со сцены” (определенное действие) является дискретным символом, но ре- 
шение о том, какому из понятий этот символ соответствует, принимаем мы, 
в зависимости от связей с расположенным рядом текстом. 

В противоположность этому, представления нейронных сетей не про- 
извольны, а являются контекстно-зависимыми. Это интуитивно полезное 
свойство ставит трудный вопрос: сколько контекстов необходимо рас- 
смотреть для того, чтобы представление оказалось универсально полез- 
ным (например, для общего понимания разговорной речи)? Можно при- 
вести пример смысловой разницы между произвольным символьным 
представлением и представлением, полученным через внедренный кон- 
текст. Представьте себе группу девушек-моделей, работающих в некото- 
ром модельном агентстве. Дом моды уже пользовался услугами всех этих 
моделей в прошлом, поэтому главный дизайнер знает их всех по именам. 
Главный дизайнер встречается с представителем агентства, чтобы обсудить 
то, кто из моделей будет участвовать в предстоящем показе мод. В ходе 
встречи на любую из моделей можно ссылаться по имени или по фотогра- 
фии. Как имя, так и фотография являются замещением реального объекта, 
но фотография имеет более полезное содержание, поскольку предлагаемая 
ею форма информации зависит от реального представляемого объекта. 

Конечно, символьные структуры являются композиционными, и со- 
ответствующие процессы могут быть структурно-сенситивными. Трудно 
вообще найти вычислительные системы, не обладающие такими свойст- 
вами. В результате композиционной природы структур имеется возмож- 
ность разбить структуру на составные части (например, для модульной 
обработки), а структурно-зависимая обработка дает высокую степень 
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обобщения. Предположим, что требуется создать символ BACKACHE 
(боль в спине) из символов ВАСК (спина) и АСНЕ (боль). Если символы 
рассматривать как строки (наши вычислительные ярлыки), то мы знаем, 
что новый символ BACKACHE является просто конкатенацией BACK 
и АСНЕ, а на нижнем уровне функция конкатенации будет знать, что 
ВАСК имеет четыре символа, и в конкатенации новая строка будет со- 
держать АСНЕ начиная с пятой символьной позиции. В рамках симво- 
лизма, представляющие ярлыки, такие как строки, соответствуют вычис- 
лительным ярлыкам, допускающим их использование в явном алгоритме 
решения требуемой задачи (в данном случае это просто конкатенация). 
В случае нейронной сети вычислительные ярлыки являются значениями 
активности и значениями весов элемента. Алгоритмы обучения вычисляют 
ввод и вывод элементов и обновляют весовые значения. Если мы должны 
использовать сеть КААМ с 25 скрытыми элементами для представления 
символов ВАСК и АСНЕ, то представления не будут лежать на уровне вы- 
числительных ярлыков. В сети КААМ все 25 элементов используются и для 
того, чтобы представить ВАСК, и для того, чтобы представить АСНЕ, по- 
этому то, как создать ВАСКАСНЕ, будет совсем не очевидно. Мы не мо- 
жем указать на один из 25 элементов и сказать, чему явно соответствует 
этот элемент (например, В или С ит.д.). Поэтому мы не можем взять 25 
элементов сети КААМ и указать, какое действие и с каким из элементов 
необходимо выполнить для того, чтобы получить конкатенацию. Чтобы 
выполнить конкатенацию, можно прибегнуть к тому, что называют цело- 
стным подходом. Можно, например, обучить другую сеть с прямой связью, 
которая получила бы на вход представления КААМ для ВАСК и АСНЕ 
и произвела на выходе представление КААМ для ВАСКАСНЕ. Можно 
обучить такую сеть на сотнях примеров в надежде получить сеть, выпол- 
няющую функцию конкатенации. Сеть конкатенации может правильно вы- 
полнять обобщение при ее тестировании на новых примерах, но наша уве- 
ренность в том, что эта сеть правильно выполнит конкатенацию любой па- 
ры символов, будет неполной из-за того, что мы не знаем точного 
механизма, который использует при этом сеть. Главное преимущество сим- 
волизма заключается в том, что если некоторая функция (например, конка- 
тенация) была однажды правильно определена как действующая на опреде- 
ленные типы вычислительных ярлыков, то в дальнейшем мы можем быть 
уверенными в том, что, не принимая во внимание возможность ошибки че- 
ловека и отказ аппаратных средств, данная функция будет правильно рабо- 
тать с любыми ярлыками, лишь бы они были соответствующего типа. 

Хотя нейронные сети все еще не выдерживают критики как символь- 
ные процессоры для задач типа конкатенации, существует ряд примеров 
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демонстрации целостного подхода, не упоминавшихся в предыдущем па- 
parpade, но обеспечивающих в какой-то мере ответ на критику, утвер- 
ждаюшую, что коннекциям не присуща систематичность. Вспомните, что 
для того, чтобы некоторая система была систематичной, она должна вести 
себя так, как будто она понимает “Джон любит Мери”, если она понимает 
“Мери любит Джона” или если она понимает “Джейн думает, что Мери 
любит Джона”. Символьную систему можно заставить вести себя система- 
тическим образом по различным сценариям. Например, если в составе неко- 
торой структуры система содержит выражение любит(Х, У), то ей можно за- 
дать общие вопросы об отношении любви (“любит” является предикатом, 
который следует при этом искать, а аргументы являются переменными, ко- 
торые могут обозначать любую константу). В [Niklasson, Sharkey, 1997] пред- 
лагается пример структурно-зависимой обработки структур системой ней- 
ронной сети. Было показано, что с помошью нейронной сети можно выпол- 
нять преобразования логических утверждений. Например, (Pa Q)>R 
можно преобразовать в его логический эквивалент —(P A О) у К 

Троичная сеть КААМ (Т.е. сеть с тремя входными полями) с тополо- 
гией 30-10-30 использовалась для представления 156 формул с высказы- 
ваниями разной сложности. После завершения обучения сети КААМ по- 
ловина из 156 построенных сетью КААМ представлений использовалось 
для того, чтобы обучить преобразующую сеть выполнению проворазиа. 
ний следующего типа: 


(выражение = выражение — —выражение у выражение). 


Например, вводом преобразующей сети могло быть представление 
КААМ для (Рл О) = К, а целевым выводом — представление КААМ для. 
—(Рл О) v К. Преобразующая сеть представляла собой стандартную гете- 
роассоциативную сеть с прямой связью (см. главу 4). Преобразованное‘ 
представление КААМ декодировалось к его составляющим с помошью 
декодера КААМ. Терминальным символам соответствовали двоичные 
векторы с ярлыками типа, как показано в табл. 8.3. Так, A И у имеют 
один тип, но, в отличие от правил грамматики предложений из главы 7, 
=> и — не классифицируются как связки. Ниже приведены правила, 
управляющие синтаксисом формул. 


формула — [выражение = выражение] 

формула — [выражение v выражение] 

выражение -> [элементарное | сложное] 

элементарное —> [P| Q| R] 

сложное — [элементарное связка сложное] 

связка > [al v] 
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В 78 тестовых преобразованиях He были правильно преобразованы 20 
формул. Во всех 20 неправильных преобразованиях ошибка содержалась 
в преобразовании составляющего в составляющий того же типа. Этот 
уровень обобщения можно считать высоким с учетом того, что преобра- 
зующая сеть не обучалась ни на одном из 78 тестовых примеров. 


Таблица 8.3. Ортогональные векторы, соответствующие терминальным символам 


Терминальный символ Двоичный код 
Р 1000 100000 
Q 1000 010000 
R 1000 001000 
A 0100 100000 
У 0100 010000 
=> 0010 100000 
— 0001 100000 
NIL 0000 000000 


Можно заподозрить, что успех этого эксперимента зависел от способа 
присвоения ярлыков типа терминальным символам. Чтобы рассеять та- 
кие подозрения, эксперимент был повторен без использования ярлыков 
типа, а с использованием кодирования всех терминальных символов слу- 
чайными векторами битов — для кодирования использовались 20 битов, 
и вероятность того, что бит установлен равным 1, была 3/20. Обобщение 
оказалось немного лучше, чем в предыдущем эксперименте. 

Другой эксперимент из [Niklasson, Sharkey, 1997] показал, что процент 
‚ обобщения оказывается высоким даже тогда, когда преобразующей сети при- 
ходится работать с другими законами преобразования логики. Например, 


—(Р у 0) преобразуется в логически эквивалентную форму —P л —Q, 
—(Рл 0) преобразуется в логически эквивалентную форму —Р v —Q. 


Хотя в этих экспериментах нейронные сети демонстрируют впечат- 
ляющий уровень обобщения, они еще не идут ни в какое сравнение 
с систематичностью, присушей символьным правилам преобразования. 
Однако будущее нейронных сетей выглядит многообещающим. Никлас- 
сон (Niklasson) и Шарки (Sharkey) смогли продемонстрировать, что ней- 

ронная сеть может научиться тому, какие символьные типы являются 
_ допустимыми на определенных позициях (а не просто тому, какие допус- 
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каются символьные ярлыки). Обобщение “типы” в данном случае явля- 
ется важным шагом по направлению к более сильным свойствам систе- 
матичности. Например, слабая с точки зрения систематичности система 
может получить обобщение любит(джон, джейн) по набору экземпляров 
{любит(джон, мери), любит(дэвид, мери), любит(дэвид, джейн)}, HO 
сильная система должна получить обобщение любит(Человек, Человек). 

Коннекционисты уже начали отвечать на критику, но мы не должны 
забывать и о преимуществах нейронных сетей в вопросах обеспечения 
плавного снижения эффективности, быстрой параллельной обработки 
и чувствительности к контексту. Мы должны помнить и о том, что пред- 
ставления нейронных сетей не являются произвольной конкретизацией, 
а являются чувствительными к вводу (т.е. к тому, что они принимают из 
внешней среды). 


8.4. Обработка речи 


8.4.1. Синтаксический анализ 


В [Кещу, 1992] описан пример синтаксического анализа предложений. 
Задачей используемого там анализатора является выяснение категории 
каждого слова в отдельности (существительное, глагол и т.д) и построе- 
ние дерева синтаксического анализа всего предложения. Такое динами- 
ческое построение дерева синтаксического анализа из последовательно- 
стей называется оперативным синтаксическим анализом. Например, кате- 
гориями слов, составляющих предложение “The boy kicked the ball” 
(“Мальчик ударил по мячу”), являются О М У DN, a деревом синтакси- 
ческого анализа-— (D М)(У (О N)). Синтаксический анализатор, о KOTO- 
ром идет речь, представляет собой простую рекуррентную сеть (сеть 
SRN), при обучении которой целевым выводом является представление 
КААМ целого дерева синтаксического анализа. Шаги, выполняемые при 
синтаксическом анализе отдельного предложения, показаны на рис. 8.11. 

Райли (КеШу) показал, что можно построить оперативный синтакси- 
ческий анализатор, используя сети КААМ и SRN. При этом обнаружи- 
лись проблемы при достижении хороших свойств обобщения системы, да 
и само обучение тоже отчасти вызывало трудности. Однако, как и в слу- 
чае любой нейронной модели, свойства обобщения могут быть, скорее 
всего, улучшены путем изменения режима обучения. Главной целью 
Райли была проверка возможности проведения оперативного син- 
такс ческого анализа, поэтому учебное множество было совсем неболь- 
шим (16 последовательностей). 
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Рис. 8.11. Пять шагов, выполняемых при синтаксическом анализе предложения типа “The 
boy kicked the ball” с помощью простой рекуррентной сети. Входными данными являются 
категории слов, а выводом — представление RAAM дерева синтаксического анализа 


В [Sharkey, Sharkey, 1992] тоже был построен синтаксический анали- 
затор, использующий сети КААМ и SRN. В модели этих авторов сеть 
SRN обучалась предсказанию следующего слова в последовательности 
слов. Сеть с прямой связью и тремя слоями обучалась отображению 
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вы. А: 


представлений скрытого слоя элементов сети SRN в представления сети 
КААМ деревьев синтаксического анализа. Во время выполнения предло- 
жение читалось сетью SRN, чтобы сгенерировать для него представление 
скрытого слоя, а затем это представление отображалось в представление 
КААМ, которое в конце концов декодировалось, чтобы выяснить истин- 
ную структуру выражения. 


8.4.2. Преобразование предложений 


Разговорный язык очень выразителен и позволяет передать одну и ту 
же мысль несколькими способами. Одно и то же сообщение можно пе- 
редать также в активной или пассивной форме. Например, пассивной 
формой предложения “Джон построил дом” является “Дом построен 
Джоном”. Челмерс показал (см. [Chalmers, 1990]), что система на основе 
нейронной сети позволяет осуществлять преобразование активной фор- 
мы в пассивную. Он тоже применил подход, использованный Никлассо- 
ном и Шарки для преобразования логических утверждений (см. раз- 
дел 8.3.4): сеть КААМ использовалась для представления предложений 
в обеих формах, а сеть с обратным распространением ошибок обучалась 
преобразованию активной формы предложения в пассивную. Было cre- 
нерировано 125 предложений, и 40 из них было выбрано для обучения 
сети КААМ. Сеть КААМ была обучена представлять как активную, так 
и пассивную форму этих 40 предложений (Т.е. в результате было получе- 
но 80 представлений предложений). Для проверки свойств обобщения се- 
ти было закодировано другое множество из 40 предложений (80 предло- 
жений с учетом активной и пассивной форм каждого из них), которые 
затем декодировались. Число закодированных тестовых представлений, ко- 
торые не декодировались правильно, оказалось равным 13. Преобразующая 
сеть обучалась на тех же 80 предложениях, которые использовались для 
обучения сети КААМ. Представления сети КААМ для 40 предложений 
в активной форме служили вводом, а целевым выходом были соответст- 
вующие 40 представлений сети КААМ в пассивной форме. По окончании 
обучения все представления пассивных форм предложений, полученные на 
выходе преобразующей сети, могли быть декодированы сетью КААМ. 
Обобщение проверялось на 40 предложениях, используемых для тестиро- 
вания сети КААМ. Из 40 сгенерированных представлений пассивной фор- 
мы предложений, 26 были правильно декодированы сетью КААМ. 

И хотя Челмерс отмечает, что показатель обобщения оказался лучше, 
чем он ожидал, он пожелал выяснить, где следует искать причину неспо- 
собности сети выполнить обобщение на некоторых структурах - в сети 
КААМ или преобразующей сети. Выше уже отмечалось, что сеть КААМ 
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оказалась не способной дать 100% обобщения. Чтобы исключить воз- 
можность появления ошибки обобщения из-за сети RAAM, для обучения 
КААМ использовались все 125 (или 250 с учетом активной и пассивной 
форм) предложений. Затем преобразующая сеть обучалась на 75 из 125 
пар активно-пассивных форм предложений. Показатель обобщения ока- 
зался равным 100% при тестировании преобразующей сети на других 50 
парах активно-пассивных форм. 

Челмерс также продемонстрировал, что другая преобразующая сеть 
тоже достигала 100% показателя обобщения при обучении преобразова- 
нию предложений из пассивной формы в активную. 

Эксперимент Челмерса еще раз показал, что система на основе ней- 
ронной сети может выполнять структурно-зависимые преобразования. 
В [Callan, Palmer-Brown, 1997] эксперимент Чалмерса был повторен с ис- 
пользованием архитектуры ($)КААМ. Показатель обобщения преобра- 
зующей сети тоже оказался равным 100%, но, в отличие от сети ВААМ 
Челмерса, сеть (S)RAAM не требует обучения на всех предложениях. 
Этот результат весьма интересен. Сеть (S)RAAM не обучается традици- 
онными методами типа метода обратного распространения ошибок. Обу- 
чение при условии, что представления сети (S)RAAM имеют больше ог- 
раничений, чем представления КААМ (например, число скрытых элемен- 
тов оказывается больше), и тот факт, что сеть (S)RAAM “хорошо 
выполняет обобщения”, говорят о том, что обучающее множество является 
очень разнообразным. Хотя обобщение сети КААМ в эксперименте Чел- 
мерса было хорошим, оно оказалось все же несовершенным, а результат 
эксперимента с сетью (5) КААМ указывает на то, что вполне возможно дос- 
тичь лучшего обобщения и при использовании сети КААМ. Как правило, 
весь потенциал качества работы сети реализовать очень трудно. 


8.4.3. Завершенные модели 


В этом подразделе мы рассмотрим две системы на основе нейронных се- 
тей, которые пытаются выполнить задачу обработки живого языка в более 
полном объеме. Обе системы опираются на идею использования сценариев. 

Предполагается, что сценарии должны отражать стереотипные ситуа- 
ции. С помощью сценария можно восполнить отсутствие некоторой ин- 
формации в текстах, подобных следующему. 


Джулиан пошел с друзьями в их любимый индийский ресторан. Они заказали еду 
и много воды, все съели и не забыли оставить чаевые перед тем, как уйти. 


| Из этого ограниченного текста, имея опыт посещения индийских ресто- 
ранов, можно ответить на вопросы, подобные следующим. 
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Почему они заказали много воды? 
Кто подавал пищу? 
Кому они оставили чаевые? 


В большинстве случаев посещение ресторана складывается из ряда стан- 
дартных действий: вход в ресторан, размещение посетителя за столом 
официантом, выбор блюд из меню, принятие заказа, прием пиши, оплата 
по счету и т.д. Сценарий содержит роли. Роли могут предназначаться для. 
клиента, официанта, шеф-повара и т.д. Так, в сценарии, приведенном 
выше, одна из ролей уже занята (Джулиан играет роль клиента). | 

Качество работы двух рассматриваемых моделей будет обсуждаться 
после того, как они будут описаны. 


Обработка сценариев в модели DYNASTY 


Модель DYNASTY (DYNAmic STory understanding system — Динами- 
ческая система понимания текста), предложенная в [Lee ef al., 1990], яв- 
ляется модульной системой на основе нейронных сетей, получающей на 
входе основанный на сценариях фрагмент текста и дающей на выходе за- 
вершенный пересказ (парафразу). Давайте используем перевод примера 
создателей модели DYNASTY и рассмотрим следующий ввод. 


Джон зашел в Чарт-Хаус. Джон съел бифштекс. Джон оставил чаевые. 
Такой ввод порождает следующий вывод. 


Джон зашел в Чарт-Хаус. Официант усадил Джона. Официант принес меню. Джон про- 
читал меню. Джон заказал бифштекс. Джон съел бифштекс. Джон заплатил по счету. 
Джон оставил чаевые. Джон вышел из Чарт-Хауса и направился домой. 


Действие в модели DYNASTY концентрируется на распределенных 
семантических представлениях, соответствующих понятиям (например, 
молоко и человек) и утверждениям (например, человек пьет молоко через 
соломинку). Распределенные семантические представления генерируются 
с помошью расширений сети КААМ (XRAAM — extended RAAM), яв- 
ляющихся по сути сетями КААМ с глобальным словарем, хранящим па- 
ры “символ”—“распределенное семантическое представление”. Напри- 
мер, символ “молоко” должен быть сохранен вместе с его представлени- 
ем КААМ. Для выполнения этой задачи используется целый ряд 
взаимодействующих модулей. 

Распределенное семантическое представление для слова-понятия 
строится таким образом, чтобы представление отражало что-то вроде всех 
различных ролей, в которых это слово используется. Например, роль 
слова молоко в предложении “человек пьет молоко” немного отличается 
от роли того же слова в “человек ест хлеб с молоком”: в первом случае мо- 
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локо является главным объектом, а BO втором молоко является сообъектом. 
При создании представления понятия молоко свой вклад внесет каждое из 
предложений, в которых встречается слово молоко. С каждым предложени- 
ем связывается некоторая структура. Например, шаблон предложения 


человек ест пищу с помощью прибора 


имеет структуру 
АГЕНТ-ДЕЙСТВИЕ-ОБЪЕКТ-ИНСТРУМЕНТ. 


Экземпляр “мужчина ест спагетти с помощью вилки” соответствует 
конкретизации ролей [АГЕНТ-мужчина, ДЕЙСТВИЕ-ест, ОБЪЕКТ- 
спагетти, ИНСТРУМЕНТ-вилка]. Имеется двухсторонняя связь между 
словами-понятиями и предложениями в том смысле, что семантическое 
содержание предложения зависит от каждого из его слов-понятий, и ка- 
ждое слово-понятие зависит от каждого из предложений, в которых оно 
встречается. В определенной мере эта зависимость учитывается в процес- 
се обучения созданию распределенных семантических представлений. 
Чтобы выучить слова-понятия, используется кодирующая понятия сеть, 
а чтобы выучить предложения, используется сеть, кодирующая предло- 
жения. Обе эти сети являются сетями КААМ, связанными с глобальным 
словарем. Обучение обеих сетей КААМ взаимозависимо в том смысле, 
что на вход сети кодирования понятий подаются представления, созда- 
ваемые сетью кодирования предложений, и наоборот. В ходе обучения 
распределенным семантическим представлениям кодируются все слова- 
понятия, затем кодируются все предложения, и процесс повторяется до 
тех пор, пока не будут найдены устойчивые образцы распределенных се- 
мантических представлений (т.е. такие, для которых не будет значитель- 
ных изменений значений активности скрытых элементов обеих сетей). 
Слова-понятия и предложения подаются на рассмотрение сети в виде 
троек. Слово-понятие структурируется как “слово-понятие, конкретиза- 
ция-роль, предложение-метка”, а предложение — как “предложение- 
метка, конкретизация-роль, слово-понятие”. Используется троичная сеть 
КААМ. Например, предположим, что изучается слово-понятие молоко 
и что молоко встречается в четырех предложениях. 


р1. Мужчина пьет молоко через соломинку. 

р2. Компания доставляет молоко в картонной упаковке. 
p3. Люди получают молоко от коров. 

р4. Мужчина ест хлеб с молоком. 

Структурными тройками слов-понятий для сети являются 
(молоко ОБЪЕКТ pl) | 
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(молоко ОБЪЕКТ p2) 

(молоко ОБЪЕКТ р3) 

(молоко СООБЪЕКТ p4), 

а структурными тройками предложения pl являются 
(р1 ДЕЙСТВИЕ пьет) 

(pl ОБЪЕКТ молоко) 

(р1 ИНСТРУМЕНТ соломинка) 

(pl АГЕНТ мужчина) 


Древовидные структуры, показанные на рис. 8.12 и 8.13, должны помочь 
разобраться, каким образом происходило обучение сетей КААМ. 


СООБЪЕКТ 
p3 
OBbEKT 
OBbEKT are 
> aie р1 


‚ Молоко ОБЪЕКТ 


Рис. 8.12. Полная древовидная структура кодирования слова “молоко” 
в примере сети ВААМ. Слово “молоко” встречается в четырех предложениях 


ИНСТРУМЕНТ Соломинка 
ОБЪЕКТ Молоко 
ee 
АГЕНТ Мужчина 
Е 
pt ДЕЙСТВИЕ Пьет 


Рис. 8.13. Полная древовидная структура кодирования предложения 
“Мужчина пьет молоко через соломинку” 
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Обучение распределенным семантическим представлениям в обеих 
сетях происходит одновременно. В начале обучения сжатых представле- 
ний для pl и “молоко” не существует, поэтому их образцы установлены 
Ha “не знаю” (все значения элементов поля 1 изначально установлены 
равными 0.5). Все конкретизации ролей (для АГЕНТ, ОБЪЕКТ ит.д.) 
фиксируются на ортогональных образцах. 

Модель DYNASTY содержит целый ряд следующих модулей. 


1. Обучающий модуль распределенного семантического представления, 
состоящий из двух модулей ХКААМ, описанных выше. 


Кодер событий, являющийся троичной сетью КААМ. 


3. Опознаватель сценариев, представляющий собой рекуррентную сеть, 
задачей которой является распознавание типа сценария по последова- 
тельности событий. 


4. Основной генератор, представляющий собой рекуррентную сеть, 
задачей которой является генерирование полной последовательно- 
сти событий. 


Кодер событий использует троичную сеть КААМ для представле- 
ния троек вида “событие, конкретизация-роль, слово-понятие”. 
На рис. 8.14 показана схема структуры ввода для “Джон зашел 
в Чарт-Хаус”. Предложения и события являются, по существу, одним 
и тем же, но сети, формирующие представления для предложений 
и событий, различны. Напомним, что предложения представляют- 
ся в обучающем модуле распределенного семантического представле- 
ния, а кодер событий использует распределенные семантические 


представления. 
В Чарт-Хаус 
АГЕНТ Джон 
ev10 ДЕЙСТВИЕ Зашел 


Рис. 8.14. Структура кодирования события “Джон зашел в Чарт- 
Хаус” в сети ВААМ. Символ “ev” с номером является про- 
сто ярлыком 
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Ролями ресторанного сценария являются следующие. 


Роли сценария: КЛИЕНТ, НАЗВАНИЕ-РЕСТОРАНА, ПИЩА . 
Экземпляры: Джон, Джек, Чарт-Хаус, Корейский-Сад, бифштекс, ребрышки 


КЛИЕНТ зашел в НАЗВАНИЕ-РЕСТОРАНА 

официант усадил КЛИЕНТ 

официант принес меню 

КЛИЕНТ прочитал меню 

КЛИЕНТ заказал ПИЩА 

КЛИЕНТ съел ПИЩА 

КЛИЕНТ оплатил счет 

КЛИЕНТ оставил чаевые 

КЛИЕНТ покинул НАЗВАНИЕ-РЕСТОРАНА и направился домой 


Если вместо КЛИЕНТ использовать Джон, вместо НАЗВАНИЕ- 
РЕСТОРАНА — Чарт-Хаус, а вместо ПИЩА — бифштекс, мы получим 
пример сценария, приводившийся выше. Первой стадией обучения явля- 
ется определение распределенных семантических представлений для всех 
ролей сценария, используемых в обучающих сценариях экземпляров 
и других понятий (меню, зашел и т.д.). Полным набором ролей будет 
{ДЕЙСТВИЕ, АГЕНТ, ОБЪЕКТ, СООБЪЕКТ, ИНСТРУМЕНТ, ИЗ, В, 
МЕСТО, ВРЕМЯ}. Так, для события 

КЛИЕНТ зашел в НАЗВАНИЕ-РЕСТОРАНА 
мы имеем 

ДЕЙСТВИЕ-зашел, АГЕНТ-КЛИЕНТ, В-НАЗВАНИЕ-РЕСТОРАНА. 

Точно также, для 

Джон зашел в Чарт-Хаус 
имеем 

ДЕЙСТВИЕ-зашел, АГЕНТ-Джон, В-Чарт-Хаус. 

Чтобы получить правильную парафразу (т.е. полный список событий 
из некоторого ограниченного подмножества), модель DYNASTY должна 
связать заполнители с ролями сценария (например, связать Джон 
и КЛИЕНТ). Процедура связывания ролей будет рассмотрена сразу же по- 
сле краткого обсуждения опознавателя сценариев и основного генератора. 

Задачей опознавателя сценариев является распознавание сценариев 
(ресторан, поход за покупками и т.д.) по последовательности событий. Ис- 
пользование соответствующей сети подобно сети SRN, поскольку значения 


активности скрытого слоя подаются обратно во входной слой для того, 
чтобы служить контекстом. Обучение происходит по методу обратного рас- 
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пространения ошибок, а учебные данные включают несколько экземпляров 
различных сценариев. Типы сценария определяются ортогональными об- 
разцами, и целевым выводом является соответствующий тип сценария. 

Задачей модуля основного генератора является создание полной па- 
рафразы (т.е. всех событий) для конкретного типа сценария. Поэтому 
вводом сети основного генёратора является тип. сценария, а выводом — 
полный список событий в форме ролей сценария (без каких бы то ни 
было связываний). Например, первыми двумя событиями для сценария 
ресторана являются “КЛИЕНТ зашел в НАЗВАНИЕ-РЕСТОРАНА” 
и “официант усадил КЛИЕНТ”. Сеть обучена генерировать события, 
представленные кодером событий, и имеет архитектуру, подобную моду- 
лю распознавания сценариев. Одно поле элементов входного слоя пред- 
назначено для того, чтобы выступать в качестве контекста, а другое поле 
элементов получает информацию о типе сценария. | 

В модели DYNASTY процесс получения полной парафразы из неко- 
торого подмножества текста выглядит следующим образом. 


1. Входной текст представляется в форме троек событий. 


2. Для каждого символа в тройке событий ищется соответствующий 
образец распределенного семантического представления из гло- 
бального словаря. 


3. Используется кодер событий, чтобы создать представления событий. 
Используется опознаватель сценариев, чтобы выявить тип сценария. 


5. С помошью основного генератора порождается полное множество 
событий. 


6. Каждое событие шага 5 декодируется в форму тройки-события (с по- 
мощью сети кодера событий, т.е. декодера КААМ). Этот процесс раз- 
деляет представление события на конкретизации ролей и распреде- 
ленные семантические представления, определяющие данное событие. 


Выполняется связывание ролей сценария (описывается ниже). 


В глобальном словаре ищутся распределенные семантические пред- 
ставления и выбирается связанный с ними символ. 


9. Создается полная парафраза. 


Заданием редактора связей ролей является связывание ролей сце- 
нария с экземплярами. Например, ввод в системе DYNASTY может 
быть следующим: 


Джон зашел в Чарт-Хаус. 
Джон съел бифштекс. 
Джон оставил чаевые. 
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Первой вводимой тройкой событий является (ev10 ДЕЙСТВИЕ за- 
шел), (еу10 АГЕНТ Джон) и (evl0 В Чарт-Хаус). Первой тройкой собы- 
тий от основного генератора будет (еу1 ДЕЙСТВИЕ зашел), (еу1 АГЕНТ 
КЛИЕНТ) и (evl В НАЗВАНИЕ-РЕСТОРАНА). Для ввода ДЕЙСТВИЕ 
имеет тот же заполнитель (зашел), что и в первой выходной тройке собы- 
тий основного генератора, поэтому эти роли сценария выбираются и со- 
храняются в таблице связей. В данном примере две роли (КЛИЕНТ, 
Джон) и (НАЗВАНИЕ-РЕСТОРАНА, Чарт-Хаус) сохраняются. Затем 
следующая входная тройка событий сравнивается со следующей порож- 
денной основным генератором тройкой событий. Если заполнители для 
ДЕЙСТВИЕ не совпадают, для сравнения используется следующая трой- 
ка событий, порожденная основным генератором. Процесс повторяется 
до тех пор, пока не будут обработаны все события основного генератора. 
Затем замещаются роли сценария во всех выходных событиях. 


Модель DISCERN 


Модель DISCERN (DIstributed SCript processing and Episodic memoRy 
Network — сеть обработки распределенных сценариев и эпизодической 
памяти, cM. [Miikkulainen, 1994]) на сегодня является одной из наиболее 
полных систем понимания речи. Подобно модели DYNASTY, здесь тоже 
все строится на основе сценариев. Расширенная парафраза оригиналь- 
ного рассказа может быть получена из ограниченного текстового ввода, 
а кроме того, DISCERN может отвечать на вопросы (например, “Что ел 
Джон в Ма-Мейзон?”). Вводом и выводом DISCERN являются распре- 
деленные представления лексических слов (Т.е. словесных символов). 
Модель DISCERN состоит из нескольких модулей. 


Анализатор 


Анализатор предложений читает слова по одному и строит представ- 
ление для каждого предложения. Анализатор рассказов создает представ- 
ление сюжета из последовательности предложений и сохраняет это пред- 
ставление в памяти. 


Генератор 

Генератор рассказов, используя сохраненное представление, создает пол- 
ную парафразу, генератор предложений выводит все соответствующие слова. 
Память 


Словарь реализован в виде двух карт признаков (см. главу 3). Первая 
(лексическая) карта хранит распределенное представление символьной 
формы (такой как, например, СОБАКА), а вторая (семантическая) кар- 
та — распределенное представление семантики слова. Распределенные 
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структуры лексикона отражают визуальные характеристики слова, поэто- 
му слова ЛАК и ПАК будут храниться рядом. Распределенные структуры 
семантической карты отражают характеристики использования слов, по- 
этому слова ЖЕРТВА и ХИЩНИК также будут храниться рядом. Эпизо- 
дическая память хранит сценарий, вариант (например, сценарий ресторана 
имеет варианты изысканной кухни и быстрого питания) и ролевые связи. 
Экземпляры рассказов хранятся в виде иерархических карт признаков. 
Сценарии сохраняются в одной карте, которая связывается с картой ва- 
риантов, а последняя, в свою очередь, связывается с картой признаков 
ролевых связей. Сжатое представление рассказа. может использоваться 
для подсказки карте сценария, распространяющей соответствующую ак- 
тивность, в результате чего восстанавливается полная парафраза. 


Ответы на вопросы 

Анализатор формирует представление вопроса, чтобы использовать это 
представление в качестве подсказки для эпизодической памяти. После 
этого генерируется соответствующее представление рассказа, используемое 
вместе с вопросом отвечающим модулем для создания представления отве- 
та, а последнее подается затем на вход генератора предложений. 

Задачи типа анализа предложений и создания ответа выполняются 
с помощью иерархически организованных модулей ЕСКЕР (Forming 
Global Representations with Extended backPropagation — формирование 
глобальных представлений с помошью расширенного алгоритма обрат- 
ного распространения ошибок; см. [Miikkulainen, Dyer, 1991]). Модули 
FGREP по сути представляют собой трехслойные сети с обратным pac- 
пространением ошибок. Данные ввода и вывода этих сетей сохраняются 
в словаре. Если модуль ЕСКЕР обрабатывает последовательность ввода 
или вывода, на каждой стадии значения активности скрытого слоя сохра- 
няются, а затем подаются обратно скрытому слою вместе со следующим 
элементом последовательности. Модули формирования подсказок и созда- 
ния ответа используют нерекуррентные сети ЕСКЕР. Анализаторы и гене- 
раторы являются рекуррентными, и при этом первые получают последова- 
тельный ввод, а последние — генерируют последовательный вывод. 

Входные и выходные слои модуля ЕСКЕР разбиты на поля, число ко- 
торых зависит от задачи модуля. Нерекуррентный модуль FGREP можно 
обучить созданию отображения синтаксических составляющих предложе- 
ния в конкретизации ролей. Поля входного слоя могут означать синтак- 
сические составляющие {Подлежащее, Сказуемое, Объект, Дополнение}, 
а поля выходного слоя — ролевые составляющие {AreHT, Действие, Объ- 
ект, Инструмент, Модификатор}. Пример подобного отображения пока- 
зан на рис. 8.15. ~ 
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Подлежащее Сказуемое Объект Дополнение 


| мальчик | попал девочка м Ввод (синтаксические составляющие) 


аа 
ОН 
И 


мальчик | пота | доча | мм | 


Агент Действие Объект Инструмент Модификатор 


Скрытый слой 


Вывод (конкретные роли) 


Рис. 8.15. Отображение синтаксических категорий в конкретизации ролей 


Поля во входном и выходном слоях загружаются данными из соответст- 
вующей слову записи словаря. В процессе обучения записи словаря посто- 
янно меняются. Сначала в словарь заносятся случайные данные, которые 
в ходе обучения меняются до тех пор, пока к концу обучения они не ста- 
билизируются. Представления изменяются во входном уровне, для чего ис- 
пользуется расширенный алгоритм обратного распространения ошибок. 
В отличие от стандартного алгоритма обратного распространения ошибок, 
когда должны вычисляться только ошибки для скрытых элементов, чтобы 
скорректировать первый слой весовых значений, сеть ЕСКЕР идет на шаг 
дальше и вычисляет ошибки для входных элементов. Изменения значений 
активности каждого входного элемента определяются произведением соот- 
ветствующего сигнала ошибки и нормы обучения. Сутью метода является 
идея трактовки входных представлений как дополнительного слоя весов. 

Анализатор предложений использует рекуррентную сеть ЕСКЕР с од- 
ним входным полем (поскольку слова читаются по одному) и с одним 
выходным полем для каждой конкретизации роли. Анализатор рассказов 
имеет по одному входному полю для каждой конкретизации роли, а на 
выходе выдается тип сценария, вариант и все роли сценария. Вывод дан- 
ных анализатора предложений служит вводом для анализатора рассказов. 

Создание парафразы подаваемого на вход рассказа включает ряд сле- 
дующих шагов. 


1. Лексическое представление каждого слова подается на рассмотрение 
лексической карте, которая с помощью семантической карты произ- 
водит семантическое представление. 


2. Семантические представления по очереди подаются на вход семанти- 
ческого анализатора. По завершении предложения представления. 
конкретизации ролей подаются на вход анализатора рассказов. 
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3. Анализатор рассказов получает OT анализатора предложений последо- 
вательность представлений предложений и генерирует в выходном 
слое полное представление всего рассказа. Экземпляры из рассказа 
теперь оказываются связанными с ролями. 


4. Представление рассказа подается в эпизодическую память, которая 
выделяет (классифицирует) сценарий рассказа, вариант и ролевые 
связи. Представление полного рассказа (полной парафразы) определя- 
ется значениями векторов весов элементов-победителей в слоях сце- 
нариев, вариантов и связей. 


5. Генератор рассказов, используя представление рассказа, создает по- 
следовательность предложений с конкретизацией ролей. 


6. Генератор предложений, используя последовательности генератора 
рассказов, выводит слова (в их семантическом представлении). 


7. Наконец, с помощью словаря семантическое представление слова 
превращается в его лексическую форму. 


Вопрос может быть переведен в форму представлений конкретизации 
ролей, которые составитель подсказок использует для того, чтобы по- 
строить приближенное представление рассказа. Затем эпизодическая па- 
мять получает подсказку для определения сценария, варианта и ролевых 
связей, используемых впоследствии для формирования ответа. 


_ Качество работы DYNASTY и DISCERN 


Обе модели показали хорошее качество обобщения. Для модели 
DYNASTY в [Lee et a/., 1990] использовались четыре сценария (посещение 
ресторана, прослушивание лекции, поход за покупками и визит к врачу) 
и были сгенерированы по восемь примеров каждого из них. Из 32 приме- 
ров сценариев, 16 использовались для обучения и столько же для тестиро- 
вания качества обобщения. Все учебные и тестовые сценарии были обрабо- 
таны. правильно. Миккулайнен (Miikkulainen) тестировал модель DISCERN 
на 96 рассказах, полученных в результате конкретизации трех сценариев 
_и трех их вариантов. В сгенерированном тексте 98% слов были правильны- 
ми. Очевидно, что обе системы выполняли свою работу хорошо. 

Модель DISCERN является более полной моделью по сравнению 
с DYNASTY хотя бы потому, например, что анализатор (в модели 
DYNASTY) не был реализован, а оставлен для реализации в дальнейшем. 
Центральным с точки зрения качества работы обеих систем является ме- 
ханизм формирования представлений, а здесь обе системы используют 
очень схожие методы рециркуляции. Представления FGREP, создающие- 
ся в модели DISCERN, накапливаются во время обучения системы вы- 
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полнению задачи, тогда как распределенные семантические представле- 
ния в модели DYNASTY формируются независимо от задачи. И хотя 
представления ЕСКЕР настраиваются именно в соответствии с решаемой 
задачей, распределенные семантические представления, будучи найден- 
ными независимо от конкретной задачи, должны быть переносимыми 
и на другие задачи, требующие доступ к словесному содержимому 
(см. [Lee eft al., 1990]). В общем, обе модели выполняют свою работу хо- 
рошо на практически одинаковых задачах, и обе предлагают хорошие 
примеры модульной архитектуры. | 

В [Miikkulainen, 1995] описана другая модульная архитектура, назван- 
ная SPEC (Subsymbolic Parser for Embedded Clauses — субсимвольный 
анализатор для подчиненных предложений), предназначенная для обра- 
ботки предложений с подчиненными предложениями (например, “Та де- 
вушка, которой понравилась собака, запомнила хозяина собаки”). Мо- 
дель SPEC разрабатывалась для анализа предложений с новыми комби- 
нациями подчиненных структур, не предлагавшихся в процессе 
обучения. Центральным компонентом системы является теперь уже хо- 
рошо знакомая нам сеть SRN, которая строит отображение последова- 
тельностей в представления конкретизации ролей. Этот анализатор на 
основе сети SRN дополняется реализацией стека КААМ, предназначен- 
ного для хранения выражений (например, “Та девушка”), используемых 
в ходе анализа позже, а также сетью сегментации, являющейся сетью 
с прямой связью, выполняющей разделения предложения на выражения. 


8.5. Другие вопросы, касающиеся представлений 
8.5.1. Обобщение 


“Обобщение” является термином с очень широкой областью исполь- 
зования. Человек выполняет обобщения без особых усилий. Например, 
вы узнаете лицо друга, даже если он отрастит бороду или изменит при- 
ческу. Обобщение может означать и нечто более абстрактное. Например, 
совсем не обязательно явно информировать о том, что объект, постав- 
ленный на колеса, будет легче передвинуть, чем объект без колес — мы 
можем догадаться об этом и сами. Опыт попыток перемещения объектов 
самых разных типов дает нам возможность вывести подходящее знание, 
так что когда мы видим новый объект в первый раз, можно достаточно 
точно оценить те усилия, которые потребует его перемещение. Знания, _ 
касающееся преимуществ использования колес, должны как-то абстраги- 
роваться от объекта в целом, поскольку объекты с колесами по внешнему 
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виду могут сильно отличаться: далеко не всегда мы, указывая Ha объект, 
говорим, что он подобен некоторому другому объекту и поэтому пере- 
двинуть его будет легко. Точно также, наличия колес не достаточно для 
обобщения: существует немало объектов, не предполагающих перемеще- 
ние, но имеющих детали, напоминающие колеса. Абстракция знания 
должна делать знание переносимым. Например, инженер-разработчик 
знает, что тележка для супермаркета должна быть с колесами, а мы мо- 
жем заключить, что стиральную машину будет легче передвинуть, если 
поставить ее на ролики. Знание о колесе существует в форме, допускаю- 
щей применение этого знания в очень широком диапазоне сценариев. 

В работе [Barnden, 1992] предлагается пример явного обобщения. 
Нейронные сети по большей части используют неявное обобщение. На- 
пример, сеть можно обучить связывать фамилии конкретных коммуни- 
стов, живущих в городе, с понятием “атеист”. Систему можно обучать 
обобщать так, чтобы для любого коммуниста, проживающего в городе, ее 
выходное заключение об активности включало характеристику “эта пер- 
сона является атеистом”. Система при этом не строила обобщение типа 
“все или большинство живущих в городе коммунистов являются атеиста- 
ми”. Предположим, что явным обобщением является подача на вход сис- 
темы требования использовать следующее правило. 


Если все (или большинство) живущих в городе коммунистов являются атеистами, то 
город имеет право претендовать на дотации фонда Фанди. 


Пример Барндена (Barnden) выявляет разницу между обобщением зна- 
ний в случае конкретных экземпляров и обобщением на некоторый 
класс. Право претендовать на дотации фонда Фанди требует обобщения 
с использованием классов. 

Предположим, что вы выросли, не зная того, что такое чашка чая, 
и кто-то (кто предполагает, что вы пили чай раньше) предлагает вам 
чашку чая, когда вы пришли к нему в гости. Через некоторое время вы 
уже будете знать, что чашка с красно-коричневой жидкостью, поставлен- 
ная перед вами, скорее всего, будет горячей (вам также несколько раз 
подавали холодный чай). Вы можете сделать обобщение, заключив, что 
“обычно чай подается горячим”. Явное обобщение делает знание пере- 
носимым. Вы можете, например, понять ассоциации предложения 
“купите стеганый чехол для чайника, если вам нравится горячий чай”. 

Легко понять, почему многие прагматики выступают за гибридные 
системы — системы, которые используют преимущества как символьной 
парадигмы, так и парадигмы нейронных сетей. “Гибрид” как термин яв- 
ляется отчасти не слишком удачным, поскольку для разных людей OH о3- 
начает разные вещи. Для одних гибридная система означает систему, со- 
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держащую разные модули, которые могут быть идентифицированы как 
символьные или основанные на нейронных сетях. Для других такой син- 
тез может означать более сильную интеграцию в рамках архитектуры, 
например типа КААМ, являющейся моделью сети, предназначенной для 
представления символьных структур. Но мы можем игнорировать степень 
гибридизации, чтобы выяснить, в чем привлекательность самой идеи. 

Рассмотрим контекст. Символ Ч является буквой “У” или “и”? Рас- 
познавание символа не обязательно должно быть проблемой, поскольку 
мы можем принять решение по имеющемуся контексту. В показанном на 
рис. 8.16 случае этот символ в слове РОТ интерпретируется, как “и” 
(нетрудно догадаться, что символ РЧТ должен быть словом). Но каким 
является второе слово — DOVE или DOUE? Разрешить эту неоднознач- 
ность поможет дополнительный контекст (скажем, если слово является 
частью предложения). Для решения неоднозначности интерпретации бу- 
квы можно использовать гибридный подход: создать нейронную сеть, 
выбираюшую несколько возможных кандидатов (например, “и” и “У”) 
и использующую символьные правила для кодирования слов и знание 
структуры предложений для окончательного выбора варианта. В данном слу- 
чае нейронная сеть должна рассмотреть один символ и с помощью правил 
обработать контекстуальную информацию. Как вариант можно было бы ре- 
шить всю задачу с помошью нейронной сети. Эта задача на самом деле ка- 
жется очень подходящей для использования нейронных сетей ввиду того, что 
она требует распознавания образцов, что нейронные сети делают достаточно 
хорошо, а кроме того, мы знаем, что представление контекста тоже связано 
с нейронными сетями. Ho Tyr наступает момент, когда для процессов выс- 
шего уровня требуется механизм абстрагирования знаний, а это до сих пор 
для коннекционистов оказывается весьма трудной проблемой. 


ЧТ DONG 


Рис. 8.16. Символ Ч может читаться как и или у в 
зависимости от контекста, в котором он встречается 


Способность абстрагироваться необходима для решения сложных за- 
дач. Через абстракцию мы можем отбросить детали и сконцентрировать 
ресурсы на существенных элементах задачи. Проектируем ли мы здание 
или планируем праздничный вечер, мы сначала работаем с минимальной 
детализацией, чтобы держать работу под контролем, добавляя информа- 
цию постепенно. Абстракция имеет с языком фундаментальные связи. 
Рассмотрим следующие утверждения. 
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Животные имеют кожу. 
Животные дышат. 
Животные едят. 


Эти утверждения абстрагированы на основе наблюдений за многими жи- 
выми созданиями нашего мира. Через эти утверждения знание делается 
переносимым для использования в самых разных контекстах. Например, 
вам нет необходимости знать, что такое собака, если вам скажут только, 
что это животное, чтобы заключить, что если у вас будет собака, вы обяза- 
ны будете ее кормить. Для вас даже не является необходимостью хотя бы 
раз в жизни видеть реальную собаку, чтобы знать о ней достаточно много. 

Язык для людей является очень богатой формой коммуникации. По- 
средством языка можно с помошью инструкции моделировать образец 
поведения в определенном сообществе, участвовать в играх со сложными 
правилами и, как мы уже видели, передавать знания. Символьные систе- 
мы являются языковыми системами. Все ученые, занимающиеся компь- 
ютерными разработками, хотели бы получить в свое распоряжение про- 
стые в использовании средства передачи знаний машине. Мы видим это 
по непрекрашающимся попыткам разработки все новых и новых языков 
и версий языков программирования всех уровней, от уровня машинных 
кодов до самого высшего уровня. Мы требуем создания систем, которые 
было бы легче программировать. В настоящее время большинство систем 
требуют от человека сначала решить стоящую перед ним задачу, а затем 
сообщить полученное решение машине посредством языка программиро- 
вания. Преимущество обучающихся машин типа машин на основе ней- 
ронных сетей состоит в том, что в них программа появляется как побоч- 
ный продукт обучения машины решать поставленную перед ней задачу. 
Но мы не сможем использовать потенциал таких машин полностью, пока 
не научимся общаться с ними. И даже ограниченная форма общения 
(например, в терминах реакции машины на команды) была бы немалым 
шагом вперед. В следующем подразделе вводится понятие обоснования 
символов, которое может оказаться существенным для вопросов, связан- 
ных с возможностями машин проявлять истинное понимание и способ- 
ность к общению. Затем следует краткое обсуждение двух систем на ос- 
нове нейронных сетей, дающее пример того, как можно было бы реали- 
зовать машинное общение. 


8.5.2. Проблема обоснования символов 


В работе [Нагпаа, 1993] Харнад заявил следующее. 


Познание не может быть только вычислением, поскольку вы- 
числение представляет собой лишь систематически интерпре- 
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тируемую манипуляцию бессмысленными символами, тогда как 
содержание моих мыслей не зависит от их интерпретируемости 
или интерпретации кем-то другим. 


Согласно Харнаду, символьное содержание должно выражаться в рамках 
содержания автомата. 

Ранее в этой главе мы уже говорили о том, что символы являются 
бессмысленными сущностями в себе, которые могут выражать значение 
только при интерпретации их некоторым агентом, уже понимающим то, 
что означают эти символы. Способность воспринимать внешнюю среду 
_И взаимодействовать со средой дает машине потенциальную возможность 
выработать для себя понимание объектов и событий в окружающем ми- 
ре. Харнад считает, что нейронные сети являются потенциальными 
“кандидатами” в системы обоснования символов. 

В [Harnad et al., 1994] отмечено, что люди видят объекты по-разному, ко- 
гда учатся сортировать их по категориям. Объекты одной категории кажутся 
более похожими, а объекты разных категорий — менее. Харнад и его соавто- 
ры использовали сеть с обратным распространением ошибок, чтобы проде- 
монстрировать создание таких категорий, где объекты имели пространствен- 
ное представление в терминах значений активности скрытых элементов. 
Согласно авторам указанной работы, такими категориями могут быть задан- 
ные символьные метки, и эти символы могут быть объединены в строки, 
формирующие утверждения, касающиеся объектов. По мнению авторов ука- 
занной работы, значения таких символьных представлений должны быть 
“обоснованы” во внутренних единицах системы, чтобы выбрать из их сен- 
сорных проекций объектные категории, содержащиеся в утверждениях. | 

Чтобы сформулировать идею обоснования яснее, мы используем более 
ранний пример Харнада (cm. [Harnad, 1990]). Представьте себе робота, рабо- 
тающего в реальном мире и обучающегося выделению одной категории для 
объектов, которые мы называем “лошадь”, а другой категории — для объек- 
тов, которые мы называем “полоски”. Если этим категориям присвоить со- 
ответственно метки “лошадь” и “полоски”, то символы “лошадь” и “полос- 
ки” окажутся обоснованными. Затем из “зебра = лошадь & полоски”. можно 
сформировать обоснованный символ для “зебра”. 

Предложенный Харнадом подход является гибридным. Можно пред- 
ставить себе нейронную сеть, присоединенную к сенсорному аппарату. 
В результате наблюдения множества объектов реального мира в про- 
странстве представлений сети образуется определенная область, содер- 
жащая все, что мы знаем об объектах типа “лошадь”, и другая область, 
где находится все известное об объектах типа “полоски”. Нейронная сеть 
воспринимает информацию и проводит категоризацию. Затем категории 
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могут быть помечены символами, и с помощью комбинирования симво- 
лов могут генерироваться новые СИМВОЛЫ. Символы типа 
“зебра = лошадь & полоски” создаются комбинацией символов, но пред- 
полагается, что символ “зебра” должен оказаться обоснованным ввиду то- 
го, что он возникает в результате композиции представлений категорий. 

В работе [Sharkey, Jackson, 1994] такой гибридный подход признан дале- 
ким от совершенства. Используем два примера из этой работы: представьте 
себе лошадь с тонкими полосками вдоль спины или лошадь, накрытую поло- 
сатой попоной. Назвали бы вы такие композиции зебрами? Конечно же нет, 
хотя оба объекта являются композициями вида “лошадь & полоски”. 

Контекстная зависимость представлений нейронных сетей, которые 
мы часто признаем исключительно полезными, бывает источником до- 
полнительных проблем. Рассмотрим понятие “кофе”. “Кофе” имеет 
представление, зависящее от контекста. “Кофе” в банке должно иметь 
представление, отличающееся от “кофе” в чашке (хотя эти представления 
и должны быть в определенном смысле подобными). Как можно иден- 
тифицировать понятие “кофе”, чтобы сделать это понятие переносимым 
на другие случаи использования? Символы оказываются переносимыми 
по причине того, что они дискретны, произвольны и независимы OT KOH- 
текста. Возможно, мы нуждаемся в контекстно-независимых компонен- 
тах представлений нейронных сетей? В сети с прямой связью из работы 
[Sharkey, Jackson, 1994] активности скрытых элементов являются контек- 
стно-зависимыми, а весовые значения — контекстно-независимыми 
представлениями. Чтобы понять эту идею, рассмотрим сеть КААМ, соз- 
дающую представление для “чашка кофе” и “банка кофе”. “Кофе” в этих 
выражениях имеет разное представление, поскольку в первом случае ко- 
фе выступает в композиции с “чашкой”, а во втором — с “банкой”. Од- 
нако для обозначения символа “кофе” во входном слое будет один или 
несколько элементов, и по окончании обучения весовые значения свя- 
зей, соединяющих соответствующие кофе элементы со скрытым слоем, 
будут оставаться неизменными. Сигнал возбуждения по соответствую- 
щим связям будет посылать ничто иное, как символ “кофе”, и этот сиг- 
нал будет одним и тем же для всех экземпляров “кофе”, независимо от 
контекста, в котором будет встречаться “кофе”. Весовые значения, таким 
образом, могут служить в качестве контекстно-независимых представле- 
ний. Так что вместо обоснования символа “чашка кофе” как композиции 
“кофе & чашка”, при котором используются метки категорий, предлага- 
ется использовать контекстно-независимые весовые значения для “кофе” 
и “чашка”, с помощью которых на элементах скрытого слоя формируется 
контекстно-зависимая композиция для символа “чашка кофе”. 
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Понятие обоснования символов может оказаться исключительно важ- 
ным для разработки истинно интеллектуальных систем. Возврашаясь к по- 
нятию “колесо”, кто возьмется полностью описывают все то, что следует 
знать об этом понятии? Где заканчивается знание о понятии “колесо”? 
Разве в процессе развития общества наши знания об объектах не расширя- 
ются? А если мы не можем собрать воедино все знания о колесе, то сможем 
ли мы тогда сделать эти знания доступными для использования в самых раз- 
ных сценариях? Возможно, именно идеи Харнада вместе с идеями Шарки 
и Джексона и других авторов обеспечат нам движение вперел! 


8.6. Возможность машинного общения 


В этом разделе будут рассмотрены две системы, являющиеся примерами 
того, какой подход можно использовать при разработке системы общения 
с машиной. Здесь следует подчеркнуть, что до реализации свободного диа- 
лога с машиной еще очень далеко, но нет никаких оснований не ожидать 
некоторых полезных разработок уже в ближайшие несколько лет. Сейчас су- 
ществуют интеллектуальные Web-areHTbl, принимающие команды на англий- 
ском языке для поиска документов в сети. Однако пока что эти агенты пред- 
ставляют собой не более, чем “намек” на то, что должно быть в будущем. 

Авторы работы, представляемой в этом разделе, не ставили своей целью 
демонстрацию возможностей машинного общения как такового, но мы мо- 
жем взглянуть на их работу и с точки зрения перспективы коммуникаций. 

Ненов (Nenov) и Дайер (Dyer) разработали систему DETE 
(см. [Nenov, Dyer, 1994] или [Dyer, 1994]). Система DETE предназначена 
для восприятия ограниченной среды и взаимодействия с ней. Эта систе- 
ма оборудована глазом, с помошью которого воспринимаются пятна, пе- 
ремешающиеся на визуальном экране, и пальцем, с помошью которого 
можно толкнуть пятно или коснуться его. В ходе обучения воспринима- 
ется три вида информации: фреймы (снимки) экрана (представляющие 
стационарные или движущиеся пятна), последовательности команд дви- 
жения (например, для перемещения глаза) и речевые описания визуаль- 
ных/двигательных последовательностей. По завершении обучения систе- 
ма DETE может обеспечить речевое описание визуальной/двигательной 
последовательности или, наоборот, генерировать последовательность ви- 
зуальных/двигательных представлений по устному описанию. 

Визуальные и двигательные признаки связываются со слова- 
ми/выражениями. Например, команда “Коснуться большого зеленого 
квадрата” сигнализирует пальцу о том, чтобы он вступил во взаимодейст- 
вие с объектом, значениями признаков которого будут “болышой”, 
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“зеленый” и “квадрат”. Мир системы DETE, хотя и является ограничен- 
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ным, достаточно богат в смысле возможных пространственно-временных 
ассоциаций. Например, квадрат может находиться слева от треугольного 
пятна, двигаться по экрану слева направо, и на какой-то стадии квадрат 
может “догнать” треугольник, если квадрат движется быстрее. Слово 
“догнать” является ассоциацией между пятнами, зависящей от измене- 
ния пространственного размещения пятен во времени. 

Для представления визуальных/двигательных признаков используется 
девять фреймов признаков, каждый из которых состоит из двумерного 
массива элементов, имеющих размер 16 х 16. Внутри каждого фрейма 
признака пятно представляется четырьмя соседствующими элементами. 
Для каждого конкретного пятна признак может быть меняющимся или 
инвариантным. Например, круг на рис. 8.17 передвигается от нижнего 
левого угла экрана к верхнему правому углу. Круглое пятно в данном 
случае остается той же формы и того же размера, и двигается с одной 
и той же скоростью. В плоскостях признаков для формы, размера и скоро- 
сти перемещения для каждого временного фрейма будет активизирован 
один и тот же набор элементов, но по мере того, как круг движется, во 
фрейме признака размещения будут активизироваться разные элементы. 
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Рис. 8.17. Фреймы признаков системы ОЕТЕ. С фреймами движения экрана связывается 
серия фреймов признаков, описывающих изменение этих признаков во времени 
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На визуальном экране одновременно могут присутствовать несколько 
пятен. Разным пятнам назначаются разные фазы активизации в плоско- 
стях признаков, чтобы учесть возможность “визуального перекрещива- 
ния” (например, если большой треугольник и маленький квадрат присут- 
ствуют на экране одновременно, система без учета фаз не сможет отли- 
чить эти объекты от маленького треугольника и большого квадрата). 

Для речевого ввода используется упрощенное фонематическое пред- 
ставление. По сути используется 64-битовая строка, каждый бит которой 
означает наличие или отсутствие определенного значения частоты. Фо- 
немы повторяются так, чтобы продолжительность речевого описания со- 
ответствовала времени присутствия капли на визуальном экране. Чтобы 
выучить значение выражения “шар движется”, это выражение воспроиз- 
водится для разных видеопоследовательностей, в которых признакам 
размера, скорости и т.д. разрешено меняться, но плоскости признаков 
формы и движения остаются инвариантными (потому что шар всегда 
круглый и всегда его перемешение описывается как “шар движется”). 

Система DETE включает ряд модулей памяти, каждый из которых 
имеет нейронную архитектуру, называемую “катамической памятью”. 
Катамическая память представляет собой сложную архитектуру, предна- 
значенную для создания ассоциаций последовательностей и завершения 
последовательностей по подсказкам в виде части последовательности. Эта 
архитектура включает модули памяти для каждой из плоскостей призна- 
ков, задачей которых является кодирование записей памяти, отражающих 
изменяющуюся активность в плоскостях соответствующих признаков. 

Система DETE обучается постепенно: сначала запоминаются отдель- 
ные слова, затем пары слов и т.д., в результате чего формируются все бо- 
лее длинные последовательности слов. Система DETE обладает способ- 
ностью обобщения новых последовательностей слов, показанных ей в хо- 
де обучения. Данная система обучалась также отвечать на простые 
вопросы с помошью завершения последовательностей. Обучение заклю- 
чалось в использовании последовательностей, содержащих рассматривае- 
мые в визуальном контексте вопросы и ответы: 


“какой размер” (визуальная сцена: большой зеленый треугольник)?, ответ “большой”: 
“какой цвет” (визуальная сцена: маленький красный шар)?, ответ “красный”. 


Система РЕТЕ обучалась и последовательностям движения. Напри- 
мер, системе можно было показать два. пятна и задать речевой ввод 
“что_больше”, на который она должна была ответить выбором подходя- 
щего пятна с помощью глаза и генерированием речевого ответа. 

Ноэль и Коттрелл (см. [Noelle, Cottrell, 1995]) тоже исследовали ассо- 
циацию лингвистического вывода с восприятием. Их подход был очень 
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простым. Архитектура сети складывалась из двух сетей SRN, как показа- 
но на рис. 8.18. Выходной слой порождает лингвистическое описание 
воспринимаемого события, поданного на рассмотрение слоя сцены. Слой 
сцены принимает последовательности простых (имеющих всего два пик- 
селя в высоту и четыре пикселя в ширину) представлений шарика, катя- 
щегося, летающего или прыгающего на экране. За один шаг времени 
создается одна лингвистическая лексема, так что описание типа “шар 
прыгает вправо” должно порождаться за три последовательных шага. Для 
каждого шага времени в слой сцены подается картинка изображения. 
Когда требуется речевое описание, значения активности подсети изобра- 
жения замораживаются, а подсеть описания проходит три рабочих цикла, 
требуемые для создания лингвистического вывода. 


Подсеть описания Подсеть изображения 


Рис. 8.18. Использование двух сетей SRN, обученных связывать лингвистический вывод с 
простыми последовательностями изображений 


Целью Ноэля и Коттрелла была демонстрация того, что лингвистиче- 
ские строки могут быть внутренне связаны с некоторой специальной за- 
дачей. Это, вместе с идеей о том, что система на основе нейронной сети 
может обладать систематическим поведением (что продемонстрировала 
их сеть-сумматор, о которой говорилось в главе 5), легло в основу идеи 
управляемой сети, т.е. сети, которая может реагировать подходящим об- 
разом на некоторые простые последовательности команд. Сам экспери- 


262 | Глава 8. Синтез символов с помощью нейронных сетей 


мыс бы д. eee 


мент Ноэля и Коттрелла был очень простым, a решаемая специальная 
задача не особенно интересной, но их целью была демонстрация потен- 
циальной пользы управляемой сети и демонстрация того, что эта польза 
вполне достижима. Известно несколько подходов, позволяющих внедрить 
в нейронную сеть априорные знания для того, чтобы начать обучение. 
Идея Ноэля и Коттрелла оказывается интересной потому, что она интег- 
рирует обычное обучение нейронной сети и “обучение по инструкциям”. 
Успешная реализация такой идеи могла бы привести к динамически 
адаптируемой системе: если необходимо, чтобы система изменила свою 
реакцию на определенную ситуацию, системе можно просто приказать! 
Возможность общаться с сетью с помошью речи может быть полезной 
и в ходе проверки качества работы системы: если система реагирует Ha 
инструкции быстро и правильно, то заложенные в систему знания можно 
считать подходящими. Кроме того, как отмечают Ноэль и Коттрелл, та- 
кая система могла бы помочь исследователям в деле понимания того, как 
протекают процессы получения умозаключений на высшем уровне, 
а также того, какие более простые ассоциативные механизмы лежат в ос- 
нове этих процессов. Ноэль и Коттрелл экспериментировали с целым ря- 
дом архитектур, но мы вкратце рассмотрим только одну из них. 

По своей сути обучение сети реагировать на инструкции ничем не от- 
личается от любого другого вида обучения. Можно, например, кодиро- 
вать инструкции как образцы, соединяя их затем с учебными данными 
(т.е. связывая инструкции с экземплярами учебных образцов конкатена- 
цией). Однако с технической точки зрения лучше хранить инструкции 
отдельно от вводимых данных. Также желательно иметь средства для вво- 
да инструкций переменной длины, и это сделать легче, если инструкции 
и данные хранятся отдельно. 

Ноэль и Коттрелл экспериментировали с дискретными отображения- 
ми. Примерами являются отображения А в В или Св А ит.п. Инструк- 
ции имеют вид последовательностей, таких как, например =АВ, что оз- 
начает команду для сети отобразить ввод А в вывод В. Соответствующая 
последовательность может быть подана на вход сети, например в виде 
=AB=>CC=>BC, что означает для сети необходимость отобразить А в В, 
а Си В — в С. В следующий момент инструкция может быть изменена 
на >AA=>BB, что означает для сети отображение А в А, В в В, a для С 
остается возможность отображаться во что угодно. 

Модель сети показана на рис. 8.19. Обученной сети инструкции пода- 
ются в слой советов, активность которого распространяется только до слоя 
плана. По завершении ввода соответствующей инструкции последователь- 
ности значения активности в слое плана замораживаются (т.е. остаются 
в дальнейшем фиксированными) и используются в качестве констант мо- 
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дуляции ввода подсети отображения. Весь ввод, осуществляемый с исполь- 
зованием модуляции, должен порождать вывод, соответствующий введен- 
ным инструкциям. При этом применяется стратегия использования фаз обу- 
чения, когда число инструкций увеличивается постепенно. Предъявляется 
инструкция, слой плана замораживается, а сеть затем обучается на каждом из 
тех экземпляров, для которых эта инструкция оказывается применимой. 


ВЫВОД 


ЕЕ 


Рис. 8.19. Схема управляемой сети, которую использовали Ноэль и Коттрелл 


Точность обучения составила 98%, а обобщение оказалось равным 
96%. Позже этот результат был улучшен в результате некоторых измене- 
ний архитектуры. 


8.7. Резюме 


В этой главе были рассмотрены лишь немногие из имеющихся связей 
между нейронными сетями и искусственным интеллектом. В работе [Sun, 
1995] интеграция символьных и нейронных процессов разделяется на 
следующие четыре категории. 


г. Обработка символов В сетях, использующих локальные представления. 


2. Обработка символов в распределенных нейронных сетях. 
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3. Совместное использование символьных систем и нейронных сетей. 
4. Внедрение элементов нейронных сетей в символьную архитектуру. 


В этой главе мы рассмотрели вопросы, относящиеся к категории 2 
(причем многие из всего спектра соответствующих вопросов вообще 
не поднимались), и некоторые аспекты модульного подхода. В сооб- 
ществе коннекционистов часто подчеркивается важность распреде- 
ленных представлений, но существуют и те, кто считает, что локаль- 
ные представления в процессе создания высокоинтеллектуальных 
машин играют не менее важную роль. То, что коннекционистам про- 
сто необходимо решить проблему обработки символьных процессов 
высокого уровня, сомнению не подлежит. Это должно открыть путь 
к композиционным возможностям и систематичности. Сейчас суще- 
ствует мнение, что за последнее десятилетие исследования нейрон- 
ных сетей привели к завершению определенного этапа. Часто цити- 
руемые тома МакКлелланда и его группы (см. [Rumelhart ef а/., 
1986b]) были посвящены главным образом когнитивным и биологиче- 
ским моделям. Тот факт, что большинство связанных с нейронными 
сетями публикаций имеют прикладную направленность, свидетельст- 
вует о пользе нейронных моделей. Сегодня новый акцент получает 
разработка нейронных моделей для интеллектуальных процессов 
высшего уровня. Действительно, как отмечается в [Arbib, 1995], “нам 
нужно больше таких книг”. 


8.8. Дополнительная литература 


Детальное обсуждение модулей ЕСКЕР и системы DISCERN в целом 
можно найти в [Miikkulainen, 1993]. Ряд статей, посвященных системам 
понимания речи на основе нейронных сетей, содержится в [Reilly, 
Sharkey, 1993], а обзор попыток решения проблемы обработки речи Ha 
основе гибридного подхода вы найдете в [Wermter, 1995]. Имеется ряд 
книг, в которых рассматриваются символьные связи нейронных сетей. 
В этих книгах вы найдете некоторые из моделей, обсуждавшихся в дан- 
ной главе. Многие главы этих книг были написаны специалистами, за- 
нимающимися активными исследованиями, поэтому там вы найдете 
приложения, теоретические результаты и обсуждения соответствующих 
философских вопросов. Книгами, о которых идет речь, являются 
[Dinsmore, 1992], [Honavar, Uhr, 1994], [Sun, Bookman, 1995] и [Dorffner, 
1997]. В качестве источника информации по ключевым вопросам мы pe- 
комендуем использовать [Clark, 1993]. 
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8.9. Упражнения 


1. Сеть КААМ используется для кодирования следующего дерева: 


((A B)(C В). 
(а) Изобразите соответствующее дерево. 
(6) Составьте список всех поддеревьев. 


(в) Составьте список подходящих векторов для терминальных симво- 
JIOB. 


(г) Предложите исходную архитектуру сети RAAM. 
2. Ответьте на вопросы упражнения 1 для следующего дерева: 


((A (F G))(B (С D){ E))). 
3. Ответьте Ha вопросы упражнения 1 для следующего дерева: 


(А ((B C D)( АЕ) NIL). 
4. Для дерева, приведенного в упражнении 2, выполните следующее. 
(а) Опишите способ кодирования поддеревьев этого дерева. 
(6) Опишите способ декодирования поддеревьев этого дерева. 
5. Ответьте на вопросы упражнения 4 для дерева из упражнения 3. 


6. Даны следующие шаблоны предложений. 


Шаблон предложения Конкретизации-роли 

Человек взял объект АГЕНТ-ДЕЙСТВИЕ-ОБЪЕКТ 

Объект переместился ОБЪЕКТ-ДЕЙСТВИЕ 

Человек бросил человеку предмет АГЕНТ-ДЕЙСТВИЕ-ОБЪЕКТ- 
ИНСТРУМЕНТ 


Р1. Джон взял мяч. 
Р2. Джон бросил Дэвиду мяч. 


(а) Составьте список структурных троек слов-понятий и предложений 
для сети ХКААМ. 


(6) Для троек, о которых идет речь в п. (а), постройте деревья, отра- 
жающие структуру их кодирования в сети ХКААМ. 


7. Ответьте на вопросы упражнения 6 с дополнительным предложением: 


РЗ. Мяч переместился. 


8. Рассмотрим нейронную сеть с пятью двоичными элементами. Если 
элемент что-то представляет, его вывод устанавливается равным 1, 
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a если элемент не принимает участия ни в каком представлении, его 
вывод будет равным 0. Сколько локальных представлений может ко- 
дировать указанная сеть и сколько распределенных? 


9. Слова можно рассматривать как складывающиеся из терминальных 
символов (букв), выполняющих конкретные роли. Например, слово 
ВАР имеет В в роли 1, А — в роли 2 и P — в роли 3. Можно счи- 
тать, что чем больше слова имеют одинаковых заполнителей, иг- 
рающих одинаковые роли, тем более визуально подобны слова. На- 
пример, БАР в этом смысле оказывается более подобным слову 
ВАР, чем слову РАБ. Объясните, как на это подобие может повли- 
ять использование для терминальных символов произвольных дво- 
ичных векторов вместо ортогональных. Иллюстрируйте свое объяс- 
нение примерами. 


10. Отличается ли сеть SRN от последовательностной сети КААМ (т.е. от 
сети, предназначенной для представления последовательностей)? По- 
ясните свой ответ. 
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Приложение A 
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Упорядоченная пара чисел может считаться точкой или вектором 
в двумерном пространстве, как показано на рис. А.1. В двумерном случае 
говорят, что точка является элементом R?, в трехмерном — элементом 
R ‚ав п-мерном — элементом RR”. Для обозначения вектора в R” ис- 
пользуется запись х=[х х. ... X,]. Элементы вектора могут также разде- 
ляться запятыми. Вектор может быть записан в виде строки или в виде 
столбца. Например, вектор 


x=[1 3 2] 


) 


представлен здесь в виде строки, a вектор 


у=| 3 
2 


представлен в виде столбца. Значения элементов и их порядок 
у векторов х и у являются одинаковыми, в таком случае говорят, что 
вектор у получен транспонированием вектора х, что записывается как 
у=х', а вектор х — транспонированием вектора у, что записывается 
как х=у'. 


x2 x2 


3 +(1, 3) 3 
2 2 
; v=([I 3] 
] x1 ] x} 


Puc. А.1. Один и тот xe элемент IR”, рассматриваемый как точка 
(слева) и вектор (справа) 
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Сложение векторов 


Векторы можно складывать и вычитать. Соответствующая проце- 
дура аналогична привычным сложению и вычитанию и проводится 
поэлементно: 

xe{l 3. 2}, 

=(1 6 5], 
х+у=[2 9 7], 
х-у=[0 -3 -3]. 


Умножение на скаляр 


Вектор можно умножать на скаляр. Например, умножение вектора 
х=[1 3 2] на 2 в результате дает вектор, который оказывается в два раза 
длиннее, а именно: 2х=[2 6 4]. 


Норма вектора 


Норма или модуль вектора определяется по следующей формуле: 


УЕ +2 +... 402 


Так, для нормы вектора х=[1 3 2] получаем: 


Их|= /12 +32 +22 =V14. 


Скалярное произведение 


Скалярным произведением двух векторов У=[\ v2... v,] И 
м=[и и ... м,] является 


У: \=им + V2W> +... ТУ 


Также можно записать 
v-w ЭМИ (cos 0), 


где 9 обозначает угол между двумя векторами. 
Пример 


Найти скалярное произведение векторов [-13 6 -2] и 122-3]. 
Найти угол между этими векторами. 
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Решение 
Скалярное произведение равно 
Е 2711 2 2-3) = -1xt ys 3K + 6x? + -2K=3 = 23. 


Угол между двумя векторами равен 
23 


с0$9 = ———, 
V50V18 
9 = 39.94°. 


Два вектора являются перпендикулярными или ортогональными, если 
‚их скалярное произведение равно нулю. Чтобы проверить ортого- 
нальность векторов, вспомните, что если с0$0 =0, то угол 90 ра- 
вен 90°. 


Матрицы 


Матрица представляет собой прямоугольный массив чисел. Матрица 
размера тхи — это матрица, имеющая т строк и п столбцов. Каждый 
элемент матрицы можно индексировать, указав строку и столбец, 
в которых этот элемент размещен. Таким образом, элементы матрицы 
размещаются в следующем порядке: 


а: 942 аз +++ An 
921 422 433 Ady 
А = | 43; 432 433 Ay 
Am) An2 4m3 Amn 


Для определенной ниже матрицы В размера 3х2 имеем b3>.=-5 
И b>, #3. 


= ЗО 
B=| 3 4 
a. = 


Умножение матриц 


Чтобы умножить две матрицы, А и В (результат записывается 
как AB), число столбцов в матрице А должно быть равным числу строк 
в матрице В. Если А имеет размеры тхл,а В — размеры пху, то их 
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произведение АВ будет матрицей размера тху. Для произведения 
С = AB элемент этого произведения определяется как 
Ci = (i-a строка вектора А): ({-й столбец вектора В), 


п 
Са У акб. 
k=l 


Пример 
Вычислить произведение 
о. ай 
273 4 
С = 3 -1 4 3 
12 4 
ah og 


Решение 
Элементы Cj; И с›3 вычисляются так: 


ge + 3х-3 + 1х1 


1х1 + 2х4 + 4х5 si 
а окончательным ответом является. 


НИ б 15 8 
Г а Е 


Транспонирование матриц 


Если матрица В получена транспонированием матрицы A, то элемент 
bj, равен элементу ах. 


Пример 


Записать матрицу В, если В=АГ и 
234 
А = | 
Е: 


Решение 


Сложение матриц 


Матрицы можно складывать, суммируя соответствующие элементы. — 
Например, если С=А +В, то с, =а,+Ь,. 
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Представление графов с ПОМОЩЬЮ матриц 


Матрица может использоваться для представления графа со взвешен- 
ными путями, как показано на рис. А.2. 


а 


4 


6 са 
3: -@ 
0 10 


— 


0 0 
| ie 
> v 


hooco AN 
oft Oo че 
eeoeceeveeeeeen 


a 
0. 
3 
0 
6 
0 


Рис. А.2. Матрица, представляющая взвешенный граф 


Векторные и матричные обозначения 
в нейронных сетях 


В резюме главы 2 приведен пример прямого и обратного проходов че- 
рез сеть с прямой связью, основанный на использовании алгоритма об- 
ратного распространения ошибок. Пример представлен в форме диа- 
граммы (см. рис. 2.22), чтобы читатель мог проверить вычисления. Для 
удобства та же диаграмма здесь показана снова (рис. A.3). Алгоритм об- 
ратного распространения, как и все другие сетевые алгоритмы, представлен 
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_ | Целевым является значение 0.9, поэтому 
- ошибка для выходного элемента равна: 
Прямой проход (0.900 — 0.288) х 0.288 


x (1 — 0.288) = 0.125 


Ошибка предыдущего 
слоя, умноженная 
на весовые значения 


Фактическая 
ошибка 


0.122(1 — 0.122) х 0.375 
—2 


Вывод элемента 


Ввод элемента 


О О 


Рис. A.3. Пример прямого и обратного проходов в сети типа 2-2-2-1 с прямой связью. Дан- 
ные ввода, вывода и значения ошибок показаны в рамках (см. рис. 2.21) 


в сжатом виде с помощью математических обозначений. С точки зрения вы- 
числений в алгоритме ничего сложного нет, но описания алгоритмов могут 
показаться сложными, если вы не знакомы с соответствующими обозначе- 
ниями. Вероятно, самым сложным делом в данном случае является сопостав- 
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ление индексов в уравнениях с соответствующими элементами сети и соот- 
ветствующими весовыми коэффициентами. 

Для случая алгоритма обратного распространения ввод конкретного 
элемента задается равенством | 


п 
net ; = Wo + SW; к 
i=l 
где x обозначает сигнал, посылаемый от соответствующего элемента, 
a w — вес связи, направленной OT этого элемента к тому элементу, ком- 
бинированный ввод которого мы вычисляем. Число элементов, посы- 
лающих сигналы, равно п. Значение wo задает вес смещения, который 
можно интерпретировать как присоединенный к элементу, чей выходной 
сигнал всегда равен 1. Поэтому выражение для входного значения можно 


переписать в виде 


п 
net ; = Ух, ‘ 
'=0 


Для примера в конце главы 2 первый слой весовых значений задается 
матрицей 


oe 
W, = —2 3 
—2 3 


Первый ряд задает весовые коэффициенты смещений, соответствующих 
первому и второму элементам первого скрытого слоя. С учетом элемента 
смещения, входной слой содержит три элемента, и поэтому матрица для 
двух скрытых элементов имеет три строки и два столбца. В скрытом слое 
тоже есть элемент смещения, но так как элемент смещения не может 
быть связан с элементами предыдущего слоя, то в матрице весовых зна- 
чений этот элемент смещения не представлен. 

При выполнении прямого прохода j соответствует элементу, ввод ко- 
торого вычисляется, а i — элементу из предыдущего слоя. Если на вход 
сети подаются значения [0.1 0.9], то ввод для первых двух скрытых эле- 
ментов задается произведением 


У. 
[1.00.1 0.9]|-2-3| =.[0 5]: 
ыы" 3 


Во входной вектор добавляется значение 1, так как. именно это значение 
всегда посылает элемент смещения. Таким образом, комбинированный 
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ввод оказывается равным 0 для первого элемента и 5 — для второго. Вы- 
числив выходные значения для этих элементов при условии использова- 
ния сигмоидальной функции активности, в выходной вектор следует до- 
бавить | и рассмотреть произведение полученного вектора с матрицей 
весовых значений второго слоя, чтобы рассчитать входные значения для 
элементов второго скрытого слоя. Теперь значение } должно будет соот- 
ветствовать тому элементу второго скрытого слоя, ввод которого вычис- 
ляется, а 1 — элементу первого скрытого слоя. 

В алгоритме обратного распространения ошибки скрытых элементов 
вычисляются в процессе выполнения обратного прохода. Ошибка любого 
скрытого элемента зависит от ошибок тех элементов, которым данный 
элемент посылает сигналы в процессе выполнения прямого прохода: 


Здесь j соответствует текущему элементу, ошибку для которого мы вы- 
числяем, а о обозначает значение активности (выход) текущего элемента. 
Слой элементов, возвращающих свои ошибки, индексируется значением 
К. Вторым слоем весовых значений в нашем примере является 


7S 
Wa =i-2 2 
ee: 


Так как сигналы ошибок возвращаются в направлении, обратном Ha- 
правлению прямого прохода, TO для вычисления произведения YO, Wy 
матрицу весовых значений необходимо транспонировать. Вспомните, что 
индекс К соответствует элементам, посылающим ошибки обратно. Ошиб- 
ки для двух элементов последнего скрытого слоя оказались равными 
[0.040 0.025]. Поэтому произведение, определяющее ошибки, посылаемые 
элементам первого скрытого слоя, будет следующим: 


—2 
[0.040 0.025] 2.9 = [-0.03 -0.11. 


Обратите внимание на то, что для обратного прохода первая строка из мат- 
рицы весов W, была удалена, поскольку ошибка для элемента смещения 
не вычисляется. Нам не требуется знать ошибки для элементов смещения, 
поскольку ошибки элементов влияют на изменение весовых коэффициен- 
тов, используемых в процессе выполнения прямого прохода сети, а таких 
весовых коэффициентов у элементов смещения, конечно же, нет, посколь- 
ку в сети нет входящих в элементы смещения связей. 
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Приложение Б 
Словарь терминов 


Автоассоциация. 


Активность. 


Ассоциация. 
Весовая матрица. 


Взвешенная связь. 


Гетероассоциация. 
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Автоассоцивное обучение используется тогда, 
когда необходимо запомнить образцы, которые 
могут впоследствии быть вызваны из памяти 

с помощью их искаженных помехами версий. 
Целью при этом является вызов истинной версии 
образца. 

В контексте данной книги это сигнал, 
посылаемый элементом либо другому элементу, 
либо во внешнюю среду. 

См. Автоассоциация, гетероассоциация. 

В этой матрице задаются весовые значения, 
характеризующие действующие в сети связи. 
Место весового значения в матрице определяется 
элементами, соединенными соответствующей 
связью. Иногда, чтобы описать связи элементов 
в сети, используют несколько весовых матриц. 
Например, если элементы разделены по слоям, 
то для описания связей между двумя соседними 
слоями может использоваться отдельная матрица. 
Связь между двумя элементами, 
характеризующаяся некоторым действительным 
числовым значением, называемым весом (а также 
весовым значением или весовым коэффициентом), 
использующимся для усиления или подавления 
сигналов, идущих по данной связи. Элемент 
может быть связан с самим собой. Связь 
определяется начальным элементом (из которого 
исходит данная связь), конечным элементом 

(к которому связь направлена) и значением, 
задающим вес. 

Ассоциация, связывающая образец с другим 
образцом, а не с самим собой. 


Приложение Б 


Глобальный Состояние, при котором параметры сети (весокые 

минимум. коэффициенты и/или значения функции 
активности) являются такими, что 
среднеквадратичная ошибка (энергия) оказывается 
минимальной. Глобальный минимум представляет 
оптимальное решение. Локальные минимумы 
соответствуют минимальной ошибке (энергии) 
в ограниченной области параметров, но не 
представляют оптимальное решение. 


Дуга. Связь между двумя вершинами в представленной 
в виде графа структуре данных. 
Инерция. Постоянный параметр, используемый при 


обучении с обратным распространением ошибки. 
Инерция контролирует влияние предыдущего 
изменения весового значения на величину 
текущего изменения. Этот параметр помогает 
избежать возникновения осцилляционных 
изменений весов и обойти локальные минимумы. 


Кластер. ’ Группа образцов, размещенных близко один 
к другому. 
Композиционные Структуры, созданные из других структур. 
структуры. Примером являются древовидные структуры, когда 
каждое дерево состоит из поддеревьев. | 
Коннекция. Искусственные нейронные сети часто называются 


коннекциями, а парадигма нейронных сетей часто 
называется “коннекционизм”. Некоторые 
исследователи рассматривают искусственные 
нейронные сети как одно из средств углубленного 
понимания нервной системы человеческого мозга. 
Другие же используют термин “коннекция” для 
того, чтобы подчеркнуть, что нейронные сети 
предназначены для вычислительных целей, 

не связанных с достижением биологического 


реализма. 
Локальное См. Распределенное представление. 
представление. j 
Локальные См. Глобальный минимум. 
минимумы. 
Модель сети. Термин, используемый для того, чтобы различать 


нейронные сети различных типов. Разные модели 


Словарь терминов | arf | 


могут отличаться алгоритмами обучения, 
способами связывания элементов и способами 
обновления элементов. 

Нейрон. См. Элемент. 

Норма обучения. Параметр, который обычно устанавливается 
равным некоторому постоянному значению перед 
началом процесса обучения. Этот параметр 
ограничивает величину, на которую может 
измениться весовой коэффициент за одно 
обновление. 

Обобщение. Термин, используемый как характеристика 
способности сети представлять данные, на 
которых сеть не обучалась. Например, 
управляемая сеть с хорошими свойствами 
обобщения должна проводить правильную 
классификацию большинства тестовых наборов. 
Смысл понятия “обобщение” может слегка 
меняться в зависимости от контекста обсуждения, 
но данное здесь объяснение соответствует 
наиболее часто используемой интерпретации. 

Образец. Набор данных, подаваемый на вход сети. 
Используется также для обозначения (обучающего 
или тестового) экземпляра. Это может быть набор 
двоичных данных, описывающих изображение 
символа для печати, или персональные 
характеристики клиента, обращающегося в банк 
за займом. 

Обучение. Процедура, используемая для того, чтобы сеть 
смогла научиться выполнять поставленную перед 
ней задачу по предъявленным ей данным. 


Обучение без Тип обучения, используемый тогда, когда нет 

управления. информации о классах, на которые следует 
разделить учебные образцы. 

Отображение. Это понятие имеет точный математический смысл, 


но если говорить неформально, то отображение 
означает процесс, преобразующий входной 
образец в выходной. 
Пакетное Выполнение корректировки весовых значений 
обновление. после рассмотрения всех образцов. Для каждого 
образца происходит накопление ошибок, 
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Пиксель. 


Пошаговое _ 
обновление. 
Признак. 


Распределенное 
представление. 


Рекуррентная 
сеть. 


Семантическое 
пространство. 


Сеть с прямой 
связью. 
Символизм. 


Скрытые 
элементы. 


Словарь терминов 


а весовые коэффициенты обновляются в конце 
итерации. Как правило, обновление происходит 
после того, как рассмотрены все образцы, но, 
вообще говоря, размер пакета может быть любым. 
Наименьший элемент изображения на экране. Чем 
больше число пикселей (точек), тем больше 
разрешающая способность. 

Выполнение корректировки весовых значений 
после рассмотрения каждого образца. 

Переменная (или атрибут). Например, признаками 
являются рост и вес индивидуума. 

Возникает при использовании нескольких 
элементов для представления одного понятия, 

а также одного элемента в представлении 
нескольких понятий. При локальном 
представлении каждое понятие представляется 
одним отдельным элементом. 

Сеть, имеющая связи, по которым сигналы 


‚ возвращаются обратно. Например, элемент может 


получать и обрабатывать сигналы от других 
элементов, а свой сигнал активности посылать 
обратно тем элементам, от которых входящие 
сигналы были получены. 

Образцы, имеющие сходный смысл, должны лежать 
в одной плоскости пространства образцов (это 
значит, что сходные образцы должны иметь близко 
расположенные соответствующие им векторы). 
Сеть, все связи которой имеют одно направление 
от входного слоя к выходному. 

Термин, используемый в области традиционного 
искусственного интеллекта для характеристики 
способа моделирования реального мира. Знание 
представляется в виде символьных структур. 
Например, символ может обозначать слово, 
представляющее одно понятие (такое как 
“собака”), или же может обозначать более 
сложный объект с набором атрибутов (имеет мех, 
лает, ест мясо). 

Элементы, не связанные к 

с внешней средой. 
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Структура связей. 
Топология. 


Узел. 
Управляемое 
обучение. 


Функция 
активности. 
Центроид. 


Шрифт. 


Элемент. 


Эпоха. 
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То, как элементы сети связаны между собой. 

В случае сетей обозначает структуру связей 
элементов сети. 

См. Элемент. 

Тип обучения, применяемый тогда, когда 
известно, к какому классу относится каждый 
учебный образец. При управляемом обучении для 
каждого учебного образца известно, что для него 
должно быть получено на выходе сети. Если сеть 
не дает соответствующего результата, то алгоритм 
обучения использует реальный выход для того, 
чтобы настроить сеть (обычно с помощью 
корректировки весов). 
Функция, используемая для вычисления 
активности элемента по данным его ввода. 
Усредненная характеристика размещения всех 
образцов в кластере. Центроид вычисляется как 
среднее всех соответствующих образцам векторов. 
Набор атрибутов, определяющих вид символов на 
внешнем устройстве вывода, например на экране 
монитора. 

Простой процессор нейронной сети, соединенный 
с другими элементами взвешенными связями. 

В качестве других названий элемента 
используются термины “узел”, “нейрон” 

и “нейроузел”. 

Одна итерация всех образцов. 
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логистическая функция, 23 
логическая связка, 194 
локальное представление, 226 
локальный минимум, 147; 175 


М 


машина Больцмана, 150 
метод 

Байеса, 154 

инерции, 175 

модельной "закалки", 146 

наименьших квадратов, 28 

Парцена, 154 
минимизация квадрата ошибки, 43 
множество противоречий, 191 
модель 

DISCERN, 249 

DYNASTY, 243 


Н 


нейрон, 15 
нелинейная проблема, 45 
норма обучения, 27 


О 


обобщение, 61; 253 

обучение автоассоциативное, 124 
отношение XOR, 23 

отрицание, 195 


П 


память 
автоассоциативная, 109 


286 


гетероассоциативная, 109 
двунаправленная 
ассоциативная, 116 


рекурсивная автоассоциативная, 219 


перетренировка сети, 61 
поиск, 188 
полносвязная сеть, 51 
полусумматор, 140 
пороговая функция, 21 
последовательность, 127 
правила вывода, 197 
правило 
Видроу—Хоффа. См. дельта-правило 
обучения, 25 
предложение 
сложное, 194 
элементарное, 194 
представление, 184 
локальное, 226 
распределенное, 226 
проблема обоснования символов, 256 
продукционная система, 191 
простая рекуррентная сеть. См. 
сеть SRN 
прототип кластера, 81 
процессор, 17 
прямая связь, 24 


Е 


рабочая память, 191 

радиальная функция, 67 

распределенное представление, 226 

рекуррентная сеть, 109 

рекурсивная автоассоциативная 
память. См. сеть КААМ 


if 


самоорганизующаяся карта 
признаков, 83 
связь, 15 


Предметный указатель 


прямая, 24 
рекуррентная, 127 
сдвиг. См. смещение 
семантический анализ, 209 
сеть 
ВАМ, 116 
BP-SOM, 164 
МАХМЕТ, 106 
РММ, 152 
КААМ, 220 
SOFM, 84 
SRN, 133 
автоассоциативная, 108 
гетероассоциативная, 108 
Кохонена. См. сеть ЗОЕМ 
модульная, 164 | 
полносвязная, 51 
рекуррентная, 109; 128 
с радиальными базисными 
функциями, 67 
Хопфилда, 109 
сигмоид. См. сигмоидальная 
функция 
двухполюсный, 79 
сигмоидальная функция, 22 
сила связи, 18 
символьная парадигма, 182 
синтаксический анализ, 207 
система ОЕТЕ, 259 
скалярное произведение, 97 
скрытый слой, 46 
скрытый элемент, 24 
сложное предложение, 194 
слой, 17 
смещение, 22 
стратегиея разрешения 
противоречий, 191 


структура связей, 17 
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T 


таблица истинности, 196 
терминальный символ, 222 
тождественная функция, 21 


У 

узел, 15 

устойчивое состояние сети, 112 
@ 

функция 


активности, 20 
выбора решения, 38 
Гаусса, 69; 70 
логистическая, 23 
плотности распределения 
вероятностей, 154 
пороговая, 21 
потенциала, 154 
радиальная, 67 
сигмоидальная, 22 
тождественная, 21 
энергии, 114 


Ц 


центроид, 81 


Э 


эквивалентность, 195 
элемент, 15 
входной, 17 
выходной, 17 
скрытый, 24 
элементарное предложение, 194 
эпоха, 53 


Я 


ядро. См. функция потенциала 
язык Prolog, 201 


287 


Научно-популярное издание 


Роберт Каллан 


Основные концепции нейронных сетей 


Литературный редактор Е.П. Перестюк 
Верстка В.И. Бордюк 
Художественный редактор И.В. Родюк 
Обложка Е.П. Дынник 
Технический редактор Г.Н. Горобец 
Корректоры //.A. Гордиенко, О.В. Мишутина 


Издательский дом “Вильямс” 
101509, г. Москва, ул. Лесная, д. 43, стр. 1 
Изд. лиц. ЛР № 090230 от 23.06.99 
Госкомитета РФ по печати 


Подписано в печать 05.11.2001. Формат 60 х88/ 16. 
Гарнитура Times. Печать офсетная. 
Усл. печ. лист. 23,22. Уч.-изд. лист.1 4,4. 
Тираж 4000 экз. Заказ № 2390. 


Отпечатано с готовых диапозитивов 
в АООТ «Гипография „Правда“». 
191119, С.-Петербург, Социалистическая ул., 14. 


P э =. а ii os 2. № - ы 
ось аъ а. еже, О eee eee 


Основные концепции 


Основы 


И 
НЕЕ 


Серия "Основы вычислительных систем" издательства Prentice Hall обес- 
печивает сжатое, удобное для изучения и унифицированное по форме вве- 
дение в предмет, лежащий в основе соответствующего университетского 
курса. В соответствии с самыми последними изменениями в системе выс- 
шего образования, в ней используются и соответствующие педагогические 
средства — конкретный подход, тщательно подобранные примеры и воп- 
росы для самопроверки — для того, чтобы помочь учащемуся лучше понять 
материал. 


Книга Основные концепции нейронных сетей является первой книгой курса 
по нейронным сетям для студентов старших курсов, и математика в ней 
используется в минимальном объеме. Главной целью книги является 
раскрытие основных понятий и изучение основных моделей нейронных 
сетей с глубиной, достаточной для того, чтобы опытный программист мог 
реализовать такую сеть на том языке программирования, который окажется 
для него предпочтительнее. 
В первых шести главах книги рассматриваются основные модели нейрон- 
ных сетей, важные для понимания основ изучаемого предмета, а в послед- 
них двух главах обсуждаются связи между нейронными сетями и ставшими 
уже традиционными понятиями из области искусственного интеллекта. 
Кроме того, книга предлагает: 

вопросы для самопроверки и упражнения в конце глав, 

словарь терминов, 

поддержку в Internet по адресу 

http://www. solent.ac. uk/syseng/faculty/html/staff/rcallan/essnn. 


Роберт Каллан имеет пятилетнюю практику преподавания и занимает 
должность старшего преподавателя в институте г. Саутгемптон. Он имеет 
степень доктора наук в области нейронных сетей и искусственного ин- 
теллекта и целый ряд опубликованных научных статей по этой тематике. До 
того, как заняться преподаванием, он руководил реализацией промыш- 
ленных проектов, в которых теория искусственного интеллекта и нейрон- 
ных сетей применялась на практике. 


ISBN 5-8459-0210-Х 


Ра То 
Ре 
EUROPE http://vig.prenhall.com 

108 


IMA \Www.williamspublising.com 9 "7/85845"902 


№ | 


Основные концепции 


нейронных сетей §P. Каллан 


